蚂蚁集团发布DevOps领域大模型评测基准DevOps-Eval

站长网2023-11-02 15:31:590阅

蚂蚁集团联合北京大学发布了面向 DevOps 领域的大语言模型评测基准 ——DevOps-Eval。

该评测基准包含了计划、编码、构建、测试、发布、部署、运维和监控等8个类别的选择题，共计4850道题目。

此外，还针对 AIOps 任务做了细分，并添加了日志解析、时序异常检测、时序分类和根因分析等任务。

目前，DevOps-Eval已发布了第一期的评测榜单，评测了 OpsGpt、Qwen、Baichuan 和 Internlm 等开源大语言模型。DevOps-Eval 的评测方式包括 Zero-shot 和 Few-shot，评测结果显示各模型得分相差不大。

未来，DevOps-Eval 将持续优化，丰富评测数据集，重点关注 AIOps 领域，并增加更多的评测模型。

GitHub 地址:

https://github.com/codefuse-ai/codefuse-devops-eval

HuggingFace 地址:

https://huggingface.co/datasets/codefuse-admin/devopseval-exam

蚂蚁集团发布DevOps领域大模型评测基准DevOpsEval

0000

评论列表

共(0)条

相关推荐

视频号该找个CEO了
作为全年最重要的电商营销节点，双11尽管近年来热度下滑，依然是新老电商平台的兵家必争之地。本届大促，淘宝天猫、京东、拼多多、抖音、快手等于10月上旬相继加入战局，不低于15%的官方直降、每300减50等低价玩法几乎成为标配。
站长网站长资讯2024-10-24 14:30:02
0000
站长资讯
小米SU7计划5月初推送首次OTA：无线CarPlay将上线！iPhone用户最优选
快科技4月25日消息，雷军在今天上午的小米汽车北京车展发布会上透露，小米SU7计划5月进行发布后的首次OTA1.1。届时，将上线大家期待已久的无线CarPlay功能、端到端代客泊车等智驾体验。无线CarPlay对于iPhone用户将会是绝杀”功能，可以让iPhone用户获得更好的车机互联体验，而且是完全无感的操作。除了无线CarPlay之外，SU7还支持AirPlay、iPad后排扩展屏等。
站长网2024-04-25 21:41:04
0000
从1月到10月，微信小游戏头部前二十发生了哪些变化
2024年是小游戏飞速增长的一年，据年中发布的《2024年1-6月中国游戏产业报告》显示，1—6月，小程序移动游戏收入166.03亿元，同比增长60.5%。这也是小游戏市场收入已连续三年保持高速增长，其中内购收入占比也在逐年提升。这也是小游戏发展趋向成熟的一年。从1月到10月，小游戏头部开始固化，休闲品类仍有不小的占比，但一些重度品类也开始出现并取得十分突出的成绩。
站长网站长资讯2024-11-25 15:28:48
0000
站长资讯
华为不忘老用户：6款荣耀手机开启鸿蒙4公测含4年前老机型
快科技10月25日消息，与荣耀分家”之后，华为并未忘记荣耀的老用户。今日，HarmonyOS官微公布了鸿蒙4对最新升级进展华为MatePad2023等4款平板即日起开启HarmonyOS4花粉Beta招募，而荣耀30，荣耀V30等6款荣耀机型开启公测招募。据悉，这6款荣耀机型分别为:荣耀30、荣耀30Pro、荣耀30Pro、荣耀V30、荣耀V30Pro、荣耀Play4Pro。
站长网2023-10-25 20:31:01
0000
站长资讯
“暴利”短剧，8天过亿？｜新视界
短剧的风愈吹愈烈。每集一两分钟，成制作本不到50万，“三无剧组”《无双》上线8天，充值破1亿元;咪蒙再创业之旗下达人「姜十七」主演的《夜班日记》播放量破10亿;在腾讯视频上线的《拜托了，别宠我》分账票房破3000万;只有三集的《逃出大英博物馆》刷爆微博热搜。
站长网2023-11-09 18:08:11
0000