CodeFuse发布面向ToolLearning领域中文评测基准ToolLearning-Eval
站长网2024-01-10 17:51:071阅
蚂蚁集团旗下CodeFuse 发布了首个面向 ToolLearning 领域的中文评测基准 ToolLearning-Eval,旨在帮助开发者跟踪和了解各个 ToolLearning 领域大模型的优势与不足。
该评测基准按照 Function Call 流程划分为工具选择、工具调用和工具执行结果总结三个过程,并提供了相应的数据集供通用模型进行评测分析。
评测数据来源包括开源数据、英译中和大模型生成三种类型,以便更全面地评估模型的工具调用能力。
ToolLearning-Eval 包含了两份评测集,分别包含239种工具类别,涵盖了59个领域,共有1509条评测数据。评测指标包括工具调用准确率(fccr)、工具识别准确率(aar)、工具调用结果准确率(arr)等。
首批参与评测的大模型包括 CodeFuse、Qwen、Baichuan、Internlm、CodeLLaMa 等。
评测结果显示,各模型在指令微调后的 function call 能力存在一定的差异,但在整体评分上差异不大。未来,ToolLearning-Eval 项目将不断优化评测数据集、拓展多工具多轮对话数据集,增加评测模型,并希望与更多的开发者一起共建 ToolLearning 领域大模型评测体系。
GitHub 地址:
https://github.com/codefuse-ai/codefuse-devops-eval
ModelScope 地址:
https://modelscope.cn/datasets/codefuse-ai/devopseval-exam/summary
新鲜AI产品点击了解:https://top.aibase.com/
0001
评论列表
共(0)条相关推荐
击败Llama 2,抗衡GPT-3.5,Stability AI新模型登顶开源大模型排行榜
一眨眼,开源大模型又进步了。谷歌、OpenAI真的没有护城河?「我就午休了30分,我们的领域又变了?」在看到最新的开源大模型排行榜后,一位AI领域的创业者发出了灵魂追问。排行榜链接:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard站长网2023-07-23 14:23:060000Stability AI 创始人怒告合伙人诈骗索赔1.5亿 称被误导以100美元出售15%公司股权
据报道,Stability.AI的联合创始人CyrusHodes向加利福尼亚北区联邦地区法院提起诉讼,指控其合作伙伴EmadMostaque欺诈和挪用公款。站长网2023-07-19 19:53:470000中国信通院宣布成立大模型生态合作共同体
据新浪科技报道,中国信通院宣布在2023世界人工智能大会期间成立大模型生态合作共同体。该共同体将聚焦于十大维度,包括数据要素、算力服务、基础理论、通用大模型、垂类大模型、未来终端、行业应用、创新集聚区、金融孵化和开源治理。共同体得到了国内四十家代表性大模型企业的全力支持。站长网2023-07-08 14:06:180000DeepMind科学家:LLM没有过度炒作!亲身分享50个AI用例让工作效率飞升50%
NicholasCarlini是谷歌DeepMind的一位研究科学家,近日,他撰写了一篇长达8万字的文章,介绍自己是怎么使用AI的。他详细列举了自己日常使用AI的50个实例,而且说这些只是他所有AI应用的不到2%。文章地址:https://nicholas.carlini.com/writing/2024/how-i-use-ai.html站长网2024-08-16 17:30:280000同方知网推出CNKI AI学术研究助手
同方知网宣布推出CNKIAI学术研究助手,可以简化学术研究的检索和研究流程。用户可以通过自然语言提问,快速获取答案,并可以连续追问。站长网2023-08-30 17:36:080001