智源研究院推出FlagEval“天秤”大模型评测体系
站长网2023-06-09 20:57:130阅
在今日的2023北京智源大会上,智源研究院宣布推出FlagEval(天秤)大语言模型评测体系。该体系从“能力、任务、指标”三维评测角度出发,结合超过600个维度对大模型进行全面测评。
据悉,天秤大模型的任务维度目前包含22个主观和客观评测数据集,共计超过84433道评测题目。

智源研究院院长黄铁军指出,大模型至少需要具备三个特点。第一,规模要大,需要达到百亿参数级别;第二,涌现性,能够产生预料之外的新能力;第三,通用性,不限于专门问题或者领域。
0000
评论列表
共(0)条相关推荐
圆心科技与腾讯健康合作 推出源泉患者管理大模型、惠保大模型
11月1日,腾讯健康与圆心科技举行战略合作签约,双方将以医疗大模型研发与应用为契机,推动圆心科技各业务板块的全面数智化升级。同时,圆心科技正式推出源泉患者管理大模型、惠保大模型。站长网2023-11-02 08:27:440000下一个OpenAI来了?Mistral超大杯模型直逼GPT-4,93年创始人6人公司被微软认领
下一个OpenAI来了?开源社区的另一个中心MistralAI,刚刚发布了最强力的旗舰模型MistralLarge,性能直接对标GPT-4!(但可惜的是没有开源)MistralLarge具备卓越的逻辑推理能力,能够处理包括文本理解、转换以及代码生成在内的复杂多语言任务。站长网2024-02-27 14:24:280000ChatGPT近8小时大规模宕机 平替谷歌Gemini 搜索量飙升60%
站长之家(ChinaZ.com)6月5日消息:近日,全球数百万用户陷入困境,因为OpenAI的旗舰聊天机器人ChatGPT在美东时间4日下午出现系统故障,持续时间长达近8个小时。这一事件影响到了ChatGPT的所有用户,包括网站、APP和桌面应用,让用户无法正常使用这一关键工具。站长网2024-06-05 16:54:030000摩尔线程复原阿里的单图跳舞项目Moore-AnimateAnyone 用户可训练自己的AnimateAnyone模型
日前,摩尔线程的单图跳舞项目已经复原,并且已经开源训练代码。这意味着你现在可以使用自己的AnimateAnyone模型进行训练。另外,基于摩尔线程开源的版本制作了ComfyUI节点,并且提供了基础的工作流。这意味着现在可以在ComfyUI中非常简单地让单图跳舞了。这一突破将为动画创作带来新的可能性,让更多人能够参与到动画创作中来。站长网2024-01-22 10:15:090001杨元庆:联想已度过行业下行周期 要把握混合式人工智能机遇
站长之家(ChinaZ.com)5月23日消息:联想集团在2023/24财年的业绩报告中展现了其强劲的增长势头。在第四财季,公司实现了994亿人民币的营收,同比增幅接近10%。这一增长得益于公司主营业务的全面恢复,净利润更是达到了17.8亿人民币,同比增长高达118%。特别值得关注的是,联想集团在PC业务之外的领域也取得了显著进展,其业务占比达到了45%,创下了历史新高。站长网2024-05-24 10:21:020000