智源研究院推出FlagEval“天秤”大模型评测体系

站长网2023-06-09 20:57:130阅

在今日的2023北京智源大会上，智源研究院宣布推出FlagEval（天秤）大语言模型评测体系。该体系从“能力、任务、指标”三维评测角度出发，结合超过600个维度对大模型进行全面测评。

据悉，天秤大模型的任务维度目前包含22个主观和客观评测数据集，共计超过84433道评测题目。

智源研究院院长黄铁军指出，大模型至少需要具备三个特点。第一，规模要大，需要达到百亿参数级别;第二，涌现性，能够产生预料之外的新能力;第三，通用性，不限于专门问题或者领域。

智源研究院推出FlagEval天秤 大模型评测体系

0000

评论列表

共(0)条

相关推荐

站长资讯
圆心科技与腾讯健康合作推出源泉患者管理大模型、惠保大模型
11月1日，腾讯健康与圆心科技举行战略合作签约，双方将以医疗大模型研发与应用为契机，推动圆心科技各业务板块的全面数智化升级。同时，圆心科技正式推出源泉患者管理大模型、惠保大模型。
站长网2023-11-02 08:27:44
0000
站长资讯
下一个OpenAI来了？Mistral超大杯模型直逼GPT-4，93年创始人6人公司被微软认领
下一个OpenAI来了?开源社区的另一个中心MistralAI，刚刚发布了最强力的旗舰模型MistralLarge，性能直接对标GPT-4!（但可惜的是没有开源）MistralLarge具备卓越的逻辑推理能力，能够处理包括文本理解、转换以及代码生成在内的复杂多语言任务。
站长网2024-02-27 14:24:28
0000
站长资讯
ChatGPT近8小时大规模宕机平替谷歌Gemini 搜索量飙升60%
站长之家（ChinaZ.com）6月5日消息:近日，全球数百万用户陷入困境，因为OpenAI的旗舰聊天机器人ChatGPT在美东时间4日下午出现系统故障，持续时间长达近8个小时。这一事件影响到了ChatGPT的所有用户，包括网站、APP和桌面应用，让用户无法正常使用这一关键工具。
站长网2024-06-05 16:54:03
0000
站长资讯
摩尔线程复原阿里的单图跳舞项目Moore-AnimateAnyone 用户可训练自己的AnimateAnyone模型
日前，摩尔线程的单图跳舞项目已经复原，并且已经开源训练代码。这意味着你现在可以使用自己的AnimateAnyone模型进行训练。另外，基于摩尔线程开源的版本制作了ComfyUI节点，并且提供了基础的工作流。这意味着现在可以在ComfyUI中非常简单地让单图跳舞了。这一突破将为动画创作带来新的可能性，让更多人能够参与到动画创作中来。
站长网2024-01-22 10:15:09
0001
站长资讯
杨元庆：联想已度过行业下行周期要把握混合式人工智能机遇
站长之家(ChinaZ.com)5月23日消息:联想集团在2023/24财年的业绩报告中展现了其强劲的增长势头。在第四财季，公司实现了994亿人民币的营收，同比增幅接近10%。这一增长得益于公司主营业务的全面恢复，净利润更是达到了17.8亿人民币，同比增长高达118%。特别值得关注的是，联想集团在PC业务之外的领域也取得了显著进展，其业务占比达到了45%，创下了历史新高。
站长网2024-05-24 10:21:02
0000