CodeFuse发布面向ToolLearning领域中文评测基准ToolLearning-Eval
站长网2024-01-10 17:51:070阅
蚂蚁集团旗下CodeFuse 发布了首个面向 ToolLearning 领域的中文评测基准 ToolLearning-Eval,旨在帮助开发者跟踪和了解各个 ToolLearning 领域大模型的优势与不足。
该评测基准按照 Function Call 流程划分为工具选择、工具调用和工具执行结果总结三个过程,并提供了相应的数据集供通用模型进行评测分析。
评测数据来源包括开源数据、英译中和大模型生成三种类型,以便更全面地评估模型的工具调用能力。
ToolLearning-Eval 包含了两份评测集,分别包含239种工具类别,涵盖了59个领域,共有1509条评测数据。评测指标包括工具调用准确率(fccr)、工具识别准确率(aar)、工具调用结果准确率(arr)等。
首批参与评测的大模型包括 CodeFuse、Qwen、Baichuan、Internlm、CodeLLaMa 等。
评测结果显示,各模型在指令微调后的 function call 能力存在一定的差异,但在整体评分上差异不大。未来,ToolLearning-Eval 项目将不断优化评测数据集、拓展多工具多轮对话数据集,增加评测模型,并希望与更多的开发者一起共建 ToolLearning 领域大模型评测体系。
GitHub 地址:
https://github.com/codefuse-ai/codefuse-devops-eval
ModelScope 地址:
https://modelscope.cn/datasets/codefuse-ai/devopseval-exam/summary
新鲜AI产品点击了解:https://top.aibase.com/
0000
评论列表
共(0)条相关推荐
LG集团推出AI产品Exaone 2.0 将用于药物及新材料研发
韩国第四大财团LG集团,周三推出了一款升级版的超大规模人工智能Exaone2.0,用于其未来的增长引擎,如新药和新材料。LG集团控股公司LGCorp.的研究机构LGAIResearch展示了Exaone2.0,一款改进版的超巨型人工智能,该集团计划在今年将其应用于其旗下各个单位。其早期版本于2021年12月推出。站长网2023-07-20 15:37:060000SettleMint 的 AI 助手旨在帮助 web3 开发人员编写更好的智能合约
SettleMint是一个面向企业的低代码区块链编程工具,最近在其平台上添加了AI助手。该AI助手旨在帮助开发人员创建智能合约、集成数据并增强质量保证(QA)测试。人工智能可以帮助Draft智能合约,并解释每一行代码的作用。尽管数字货币价格暴跌,但这家成立七年的比利时公司的用户仍在稳步增长,因为越来越多的企业认识到区块链技术的好处,但缺乏将其想法变为现实的技术技能。站长网2023-08-03 14:47:530000谷歌更新不活跃个人账户政策 两年未登录使用将被删除
谷歌今天宣布更新其不活跃账户政策,将删除未使用至少两年的谷歌账户。谷歌表示,长时间未使用的账户更容易受到入侵,因为使用的是较旧、不够安全的密码,并且缺乏双重身份验证。站长网2023-05-17 11:52:200000澳大利亚警方运用AI分析数据 识别洗钱和诈骗活动
文章概要:1.澳大利亚联邦警察(AFP)开始使用人工智能分析监视许可数据,以帮助识别洗钱和潜在欺诈活动。2.AFP在提交给政府的文件中表示,他们的人工智能技术使用迄今有限,但有望改善警务工作的效率。3.不过其他组织存在对人工智能使用的担忧,包括大型语言模型的使用和对数据的透明性要求。站长网2023-09-22 11:00:140000AI 视频编辑器Dumme:几分钟就能将YouTube长视频变成短视频
Dumme是一家由YCombinator支持的初创公司,该公司一直在利用AI将较长的YouTube视频转换为较短的视频。该公司有数百名视频创作者在测试其产品,还有20,000多个预发布候补名单。站长网2023-06-05 19:28:230000