CodeFuse发布面向ToolLearning领域中文评测基准ToolLearning-Eval
站长网2024-01-10 17:51:071阅
蚂蚁集团旗下CodeFuse 发布了首个面向 ToolLearning 领域的中文评测基准 ToolLearning-Eval,旨在帮助开发者跟踪和了解各个 ToolLearning 领域大模型的优势与不足。
该评测基准按照 Function Call 流程划分为工具选择、工具调用和工具执行结果总结三个过程,并提供了相应的数据集供通用模型进行评测分析。
评测数据来源包括开源数据、英译中和大模型生成三种类型,以便更全面地评估模型的工具调用能力。
ToolLearning-Eval 包含了两份评测集,分别包含239种工具类别,涵盖了59个领域,共有1509条评测数据。评测指标包括工具调用准确率(fccr)、工具识别准确率(aar)、工具调用结果准确率(arr)等。
首批参与评测的大模型包括 CodeFuse、Qwen、Baichuan、Internlm、CodeLLaMa 等。
评测结果显示,各模型在指令微调后的 function call 能力存在一定的差异,但在整体评分上差异不大。未来,ToolLearning-Eval 项目将不断优化评测数据集、拓展多工具多轮对话数据集,增加评测模型,并希望与更多的开发者一起共建 ToolLearning 领域大模型评测体系。
GitHub 地址:
https://github.com/codefuse-ai/codefuse-devops-eval
ModelScope 地址:
https://modelscope.cn/datasets/codefuse-ai/devopseval-exam/summary
新鲜AI产品点击了解:https://top.aibase.com/
0001
评论列表
共(0)条相关推荐
小鹏汽车回应阿里巴巴减持股份:并非针对 仍会合作
快科技3月26日消息,据媒体报道,3月20日,小鹏汽车在美国证券交易委员会提交的文件显示,阿里巴巴旗下淘宝中国控股有限公司计划出售3300万份小鹏汽车ADS。总价值约3.14亿美元,相当于约22.61亿元人民币。3月22日,淘宝中国控股有限公司完成了所持小鹏汽车3300万份ADS的出售,其持股比例由原来的9.23%降至4.94%。站长网2024-03-26 17:37:340000调查:99%泰国员工表示使用生成式AI提高了生产力
划重点:-近乎99%的泰国员工表示在工作中使用生成式AI后,生产力有所提升。-超过60%的员工认为生成式AI对于职业晋升至关重要。-调查还揭示了使用生成式AI时的道德和安全风险。根据一项由全球软件公司Salesforce委托进行的YouGov调查,几乎所有在工作中使用生成式AI(AI)的泰国员工报告称,他们的生产力有所提高,并将这项技术视为推动职业发展的关键。站长网2023-11-09 11:02:550000罗永浩最后一次创业最新进展,暂别AR,迎来AI Jarvis
按照计划,细红线将在蛇年春节前后发布首款新品,据了解,这个新品的主菜是软件方案,并附带了一款AInative硬件,“理念非常超前”,一位内部员工如是认为。不过内部对于这款产品的销量暂不抱期待,“新事物往往没有可参照对象”。「前夜」约一个月前,细红线员工罗霄就发现,公司里有一伙人被拉到了北京郊区,进入秘密封闭研发阶段。他意识到,“那个新品”估计快要发布了。0000网友排队抢着买,74岁网红阿姨彻底火了
南京“10元咖啡阿姨”全网爆火这个世界难道真的癫了?没想到啊,居然有人愿意打飞的、坐高铁去南京喝10元一杯的速溶咖啡,这样的人还不少。近日,南京的“手冲咖啡”阿姨在网络上迅速蹿红。在最初那段广为流传的视频中,阿姨当面剪开三条速溶咖啡用开水冲泡,为顾客塑封,每杯售价十元。正是这样一条看似普通的生活记录视频,在短短19个小时里,收获了超过170万的点赞量。站长网2024-05-24 15:46:230000零跑汽车公布八周年岁末限时钜惠:最高现金优惠1.7万元
零跑汽车最近推出了八周年岁末限时钜惠活动,为消费者提供了丰富的优惠政策。从2023年12月1日至2023年12月31日期间,通过官方渠道购买零跑汽车并完成交付的用户,可以获得5000-17000元的现金优惠。此外,部分车型还可以获得最高5000元/辆的选装基金。具体来说,2023款零跑C11纯电以及C11增程版车型可以享受现金优惠5000元以及最高5000元选装基金。站长网2023-12-01 16:48:240000