蚂蚁集团发布DevOps领域大模型评测基准DevOps-Eval
站长网2023-11-02 15:31:590阅
蚂蚁集团联合北京大学发布了面向 DevOps 领域的大语言模型评测基准 ——DevOps-Eval。
该评测基准包含了计划、编码、构建、测试、发布、部署、运维和监控等8个类别的选择题,共计4850道题目。
此外,还针对 AIOps 任务做了细分,并添加了日志解析、时序异常检测、时序分类和根因分析等任务。
目前,DevOps-Eval已发布了第一期的评测榜单,评测了 OpsGpt、Qwen、Baichuan 和 Internlm 等开源大语言模型。DevOps-Eval 的评测方式包括 Zero-shot 和 Few-shot,评测结果显示各模型得分相差不大。
未来,DevOps-Eval 将持续优化,丰富评测数据集,重点关注 AIOps 领域,并增加更多的评测模型。
GitHub 地址:
https://github.com/codefuse-ai/codefuse-devops-eval
HuggingFace 地址:
https://huggingface.co/datasets/codefuse-admin/devopseval-exam
0000
评论列表
共(0)条相关推荐
魅族21系列推出Flyme 10.5系统:语音助手接入AI大模型
魅族21系列最新推出了Flyme10.5.0.1A稳定版系统,此次更新的语音助手接入了AI大模型,用户可以在使用魅族21系列手机时进行体验。以下是本次系统更新的主要内容:1.语音助手小溪接入了AI大模型,支持自然语言对话、文档总结、知识问答、出行规划、运动健康建议、文案生成等AI功能。0000日本音乐作家团体联盟 FCA 呼吁保护创作者权益:推进 AI 技术和谐共存
FCA是由13个音乐作家团体组成的日本唯一的音乐作家团体联合组织。该组织于6月15日代表音乐作家发表意见,就生成AI使用著作物的问题提出了看法。该组织认为,在生成AI技术不断进步的当下,关于创作者权利保证的讨论仍被搁置,法制和社会制度并未跟上AI技术的进步,因此该组织要求政府重新审视现行的著作权法的权利限制规定,达到在推进AI技术发展的同时与创作者权利保护和谐共存的目的。站长网2023-06-16 14:38:580000霸王餐平台盛行,谁在为免费午餐买单?
最近两周,编辑部同事间有了一句新的问候语:“今天你吃霸王餐了吗?”在把饭送进嘴里前,常能看到有人触电一样放下筷子拿起手机:“还没拍照呢!”忘记拍照的同事甲甚至想翻垃圾桶找到自己吃光的外卖盒,只为拍下一个返图。在我们之间掀起波澜的是一个点外卖给好评可以返利的平台:平时正常下单外卖要花20-30块,给个好评就能拿回15-20块。据多位长期用户透露,自己已经拿到超过1万元的返现。站长网2023-11-20 09:21:240001美国参议院公布AI监管路线图 呼吁每年投320亿美元
划重点:🔸参议院AI工作组公布了一份AI监管路线图,呼吁每年至少投入320亿美元用于非国防AI创新。🔸路线图重点指导参议院各委员会在AI立法方面的工作重点,包括AI人才培训、处理AI生成内容、保护隐私信息和版权内容、减少AI的能源消耗等。🔸路线图没有提出具体的立法法案,而是为参议院委员会在AI监管方面提供了指导。站长网2024-05-16 11:09:190000用AI搞副业日赚近3万,零工陷阱还是掘金秘诀?
AI产品还没赚到钱,会用AI的人已经赚得盆满钵满?最近,在海外最大的自由职业交易平台Fiverr上,有创作者凭借人工智能服务,获得了近80万人民币的收入。创作者“EliLev”在Fiverr上主要出售AI视频制作服务。找他制作一个300秒的AI视频,最低报价为290美元(折合人民币2095元)。除了已完成的149单外,还有14个订单正在排队等待制作。站长网2023-11-27 13:52:280000