蚂蚁集团发布DevOps领域大模型评测基准DevOps-Eval
站长网2023-11-02 15:31:590阅
蚂蚁集团联合北京大学发布了面向 DevOps 领域的大语言模型评测基准 ——DevOps-Eval。
该评测基准包含了计划、编码、构建、测试、发布、部署、运维和监控等8个类别的选择题,共计4850道题目。
此外,还针对 AIOps 任务做了细分,并添加了日志解析、时序异常检测、时序分类和根因分析等任务。

目前,DevOps-Eval已发布了第一期的评测榜单,评测了 OpsGpt、Qwen、Baichuan 和 Internlm 等开源大语言模型。DevOps-Eval 的评测方式包括 Zero-shot 和 Few-shot,评测结果显示各模型得分相差不大。
未来,DevOps-Eval 将持续优化,丰富评测数据集,重点关注 AIOps 领域,并增加更多的评测模型。
GitHub 地址:
https://github.com/codefuse-ai/codefuse-devops-eval
HuggingFace 地址:
https://huggingface.co/datasets/codefuse-admin/devopseval-exam
0000
评论列表
共(0)条相关推荐
视频号该找个CEO了
作为全年最重要的电商营销节点,双11尽管近年来热度下滑,依然是新老电商平台的兵家必争之地。本届大促,淘宝天猫、京东、拼多多、抖音、快手等于10月上旬相继加入战局,不低于15%的官方直降、每300减50等低价玩法几乎成为标配。0000小米SU7计划5月初推送首次OTA:无线CarPlay将上线!iPhone用户最优选
快科技4月25日消息,雷军在今天上午的小米汽车北京车展发布会上透露,小米SU7计划5月进行发布后的首次OTA1.1。届时,将上线大家期待已久的无线CarPlay功能、端到端代客泊车等智驾体验。无线CarPlay对于iPhone用户将会是绝杀”功能,可以让iPhone用户获得更好的车机互联体验,而且是完全无感的操作。除了无线CarPlay之外,SU7还支持AirPlay、iPad后排扩展屏等。站长网2024-04-25 21:41:040000从1月到10月,微信小游戏头部前二十发生了哪些变化
2024年是小游戏飞速增长的一年,据年中发布的《2024年1-6月中国游戏产业报告》显示,1—6月,小程序移动游戏收入166.03亿元,同比增长60.5%。这也是小游戏市场收入已连续三年保持高速增长,其中内购收入占比也在逐年提升。这也是小游戏发展趋向成熟的一年。从1月到10月,小游戏头部开始固化,休闲品类仍有不小的占比,但一些重度品类也开始出现并取得十分突出的成绩。0000华为不忘老用户:6款荣耀手机开启鸿蒙4公测 含4年前老机型
快科技10月25日消息,与荣耀分家”之后,华为并未忘记荣耀的老用户。今日,HarmonyOS官微公布了鸿蒙4对最新升级进展华为MatePad2023等4款平板即日起开启HarmonyOS4花粉Beta招募,而荣耀30,荣耀V30等6款荣耀机型开启公测招募。据悉,这6款荣耀机型分别为:荣耀30、荣耀30Pro、荣耀30Pro、荣耀V30、荣耀V30Pro、荣耀Play4Pro。站长网2023-10-25 20:31:010000“暴利”短剧,8天过亿?|新视界
短剧的风愈吹愈烈。每集一两分钟,成制作本不到50万,“三无剧组”《无双》上线8天,充值破1亿元;咪蒙再创业之旗下达人「姜十七」主演的《夜班日记》播放量破10亿;在腾讯视频上线的《拜托了,别宠我》分账票房破3000万;只有三集的《逃出大英博物馆》刷爆微博热搜。站长网2023-11-09 18:08:110000