登陆注册

Eval

  • CodeFuse发布面向ToolLearning领域中文评测基准ToolLearning-Eval

    蚂蚁集团旗下CodeFuse发布了首个面向ToolLearning领域的中文评测基准ToolLearning-Eval,旨在帮助开发者跟踪和了解各个ToolLearning领域大模型的优势与不足。该评测基准按照FunctionCall流程划分为工具选择、工具调用和工具执行结果总结三个过程,并提供了相应的数据集供通用模型进行评测分析。
    站长网2024-01-10 17:51:07
    0001
  • 蚂蚁集团发布DevOps领域大模型评测基准DevOps-Eval

    蚂蚁集团联合北京大学发布了面向DevOps领域的大语言模型评测基准——DevOps-Eval。该评测基准包含了计划、编码、构建、测试、发布、部署、运维和监控等8个类别的选择题,共计4850道题目。此外,还针对AIOps任务做了细分,并添加了日志解析、时序异常检测、时序分类和根因分析等任务。
    站长网2023-11-02 15:31:59
    0000