蚂蚁集团发布DevOps领域大模型评测基准DevOps-Eval
站长网2023-11-02 15:31:590阅
蚂蚁集团联合北京大学发布了面向 DevOps 领域的大语言模型评测基准 ——DevOps-Eval。
该评测基准包含了计划、编码、构建、测试、发布、部署、运维和监控等8个类别的选择题,共计4850道题目。
此外,还针对 AIOps 任务做了细分,并添加了日志解析、时序异常检测、时序分类和根因分析等任务。

目前,DevOps-Eval已发布了第一期的评测榜单,评测了 OpsGpt、Qwen、Baichuan 和 Internlm 等开源大语言模型。DevOps-Eval 的评测方式包括 Zero-shot 和 Few-shot,评测结果显示各模型得分相差不大。
未来,DevOps-Eval 将持续优化,丰富评测数据集,重点关注 AIOps 领域,并增加更多的评测模型。
GitHub 地址:
https://github.com/codefuse-ai/codefuse-devops-eval
HuggingFace 地址:
https://huggingface.co/datasets/codefuse-admin/devopseval-exam
0000
评论列表
共(0)条相关推荐
从小红书首届创作者获奖名单里,我们读到了这些信号
小红书给创作者颁奖了,我们第一时间拿到了获奖名单。从这份名单里,我们看到了一些官方说了的以及还没说的信号。8月30日,小红书举行了一场创作者开放日活动——“熟人300·创作者年度见面会”,除了公布了小红书的“熟人300”名单之外,对其中表现突出的创作者颁发的16个奖项是最大看点。站长网2024-09-03 17:07:230000女主播穿黑丝低俗卖车 抖音严打!捷途汽车直播擦边被封号
快科技5月17日消息,如今,在短视频平台直播卖车的4S店越来越多,为了博取流量、吸引眼球,本该介绍车辆、展示汽车功能的汽车直播间,却变成了低俗擦边的秀场。部分车企4S店的女主播故意穿着暴露、姿势不雅,甚至刻意走光,在直播间大搞擦边内容。今日,抖音黑板报”发布第二期严厉惩治汽车行业擦边”营销问题的治理公告。站长网2024-05-18 09:43:110004美国媒体组织指控生成式AI侵权使用新闻机构内容
划重点:-📢新闻/媒体联盟称生成式人工智能基于非法使用新闻报道内容。-📝该组织代表约2,000家北美媒体机构,指控AI公司未经授权复制出版商内容用于训练生成式AI产品。-🇺🇸他们敦促美国政府通过立法,允许出版商公平协商与AI开发者使用其内容的权利,并要求AI公司披露在训练AI中使用的受版权保护内容。站长网2023-11-02 17:06:350000抖音发布短剧类小程序运营规范:这些情况应无条件退款
抖音发布《关于微短剧小程序交易管理规范的公告》称,为促进短剧行业健康发展,保障消费者合理权益及提升观剧体验,制定了短剧类小程序运营规范。平台提出,微短剧小程序需符合以下要求:1、针对小程序收费问题:(1)要求在付费页面必须出具相关付费说明,并提供参考样式;(2)要求短剧内容价格计算逻辑/比例、适用范围清晰;(3)对于大金额消费平台上线消费拦截。2、针对小程序退费问题:0000微信大改版!“momo大军”登陆公众号评论区,视频号挂链规则收紧
微信又有了新动作。两个多月前,新榜曾发文《天降10万?“看一看”能重新盘活公众号流量吗》,讨论微信流量算法的变化,这件事如今有了后续,近期,微信支持自行设置是否愿意文章被推荐,将进入公域流量池的主动权交还给了创作者。当时,评论区一位名为“柒个先生”的网友用近400字分析了“看一看”的入选逻辑,有人回复:“我觉得你的评论很好,什么时候能开放评论区点进个人主页或视频号。”站长网2023-09-06 17:47:430000