蚂蚁集团发布DevOps领域大模型评测基准DevOps-Eval
站长网2023-11-02 15:31:590阅
蚂蚁集团联合北京大学发布了面向 DevOps 领域的大语言模型评测基准 ——DevOps-Eval。
该评测基准包含了计划、编码、构建、测试、发布、部署、运维和监控等8个类别的选择题,共计4850道题目。
此外,还针对 AIOps 任务做了细分,并添加了日志解析、时序异常检测、时序分类和根因分析等任务。
目前,DevOps-Eval已发布了第一期的评测榜单,评测了 OpsGpt、Qwen、Baichuan 和 Internlm 等开源大语言模型。DevOps-Eval 的评测方式包括 Zero-shot 和 Few-shot,评测结果显示各模型得分相差不大。
未来,DevOps-Eval 将持续优化,丰富评测数据集,重点关注 AIOps 领域,并增加更多的评测模型。
GitHub 地址:
https://github.com/codefuse-ai/codefuse-devops-eval
HuggingFace 地址:
https://huggingface.co/datasets/codefuse-admin/devopseval-exam
0000
评论列表
共(0)条相关推荐
麦当劳对讲机玩具爆火:App一度崩了 很多人都在抢
5月25日消息,据国内多家媒体报道,因为一个六一儿童节的定制玩具对讲机,麦当劳APP又经受了一波大流量的考验。近日,因麦当劳对讲机活动火爆,麦当劳App一度出现宕机,部分点餐功能受影响,目前已经恢复。据了解,每到六一儿童节,麦当劳、肯德基通常都会推出玩具,比如去年六一时候,下单麦当劳可获得俄罗斯方块游戏机一个,全国限量40万个,活动上线后迅速引发关注,游戏机闪电售罄。站长网2024-05-27 09:58:160000队史首个连冠!成都AG超玩会夺得2024KPL年度总决赛冠军
快科技11月16日消息,成都AG超玩会夺得2024KPL年总决赛总冠军!在今晚的比赛中,成都AG超玩会以4:2比分战胜重庆狼队,成为2024年KPL年度总决赛总冠军,捧起第四座冠军奖杯,达成队史首个连冠。从2023年挑战者杯到2024年KPL年度总决赛,成都AG超玩会连续五进决赛。他们曾在春日的大连折戟,而在秋天的北京终于收获胜利的果实。0000Adobe 收购印度人工智能视频初创公司 Rephrase.ai
划重点:🌟Adobe系统扩展生成式人工智能能力,报告收购印度初创公司Rephrase.ai。🎥Rephrase.ai简化视频制作,通过文本转换为专业视频,定位介于Photoshop和PremierePro之间。💰印度人工智能初创生态系统势头强劲,Rephrase.ai的成功故事使Adobe在这一新兴市场占据有利地位。站长网2023-11-23 10:21:420000微软发布AI工具 Recall,帮助你找到那些找不到的文件
划重点:🔍Microsoft推出RecallAI,为你的电脑提供了“照片记忆”功能。🔍只有CopilotPC系列才能使用这一功能,目前限定在特定型号电脑上。🔍RecallAI允许用户使用语音查询文件、网站或电子邮件,并通过AI进行索引和搜索。站长网2024-05-22 01:00:490000不是必须!公安部:没有网号、网证也可正常上网
快科技8月23日消息,上个月,公安部、国家网信办等研究起草了《国家网络身份认证公共服务管理办法(征求意见稿)》,并向社会公开征求意见。其中提到,将向社会公众统一签发网号”网证”,提供以法定身份证件信息为基础的真实身份登记、核验服务,达到方便人民群众使用、保护个人信息安全、推进网络可信身份战略的目标。0000