香港中文大学发布全面中文大语言模型评测CLEVA
核心要点:
香港中文大学的研究团队发布了全面的中文大语言模型评测方法,已被EMNLP2023System Demonstrations录取。
该评测方法包含31个任务和多种评测指标,覆盖了84个数据集,着重关注准确性、鲁棒性、公平性等多个维度。
评测方法还提供多样的提示模版,降低数据污染风险,以及提供清晰的操作界面,可供研究团队使用和交互评测。
香港中文大学的研究团队最近发布了一项全面的中文大语言模型评测方法,这一方法已经被EMNLP2023System Demonstrations录取。这一评测方法名为CLEVA,是由香港中文大学计算机科学与工程学系的王历伟助理教授领导的研究团队开发的,与上海人工智能实验室合作研究。
CLEVA的目标是为中文大语言模型提供全面的评测,覆盖多个任务和多个评测指标,以更好地理解和评价这些模型的能力。
论文地址:https://arxiv.org/pdf/2308.04813.pdf
这一评测方法包含了31个任务,其中包括11个应用评估和20个能力评测任务,共涵盖了来自84个数据集的370,000多个中文测试样本。这是过去同类工作中样本数量最多的,为全面评测提供了更多的数据支持。
CLEVA不仅关注传统的准确性指标,还引入了鲁棒性、公平性、效率、校准与不确定性、偏见与刻板印象以及毒性等多维度的评测指标,以更全面地评价大语言模型的性能。
为了确保评测的可比性,CLEVA为每个评测任务准备了一组多个提示模板,使所有模型都使用相同的提示模板进行评测。这有助于公平比较模型能力,同时还可以分析模型对不同提示模板的敏感程度,为模型的下游应用提供指导。
此外,CLEVA还采取了多种方法来降低数据污染的风险,包括采用新数据和不断更新的测试集。
这一全面的中文大语言模型评测方法旨在提供更可信的评测结果,为学术界和工业界提供更准确的模型能力认知。研究团队已经使用CLEVA评测了23个中文大模型,并计划持续评测更多的模型。其他研究团队也可以通过CLEVA网站提交和对接评测结果,从而促进大模型能力的认知和评测。
美国迫使沙特基金退出Altman支持的人工智能芯片初创公司
##划重点:🧠**人工智能芯片初创公司退出:**美国政府迫使沙特阿美支持的风险投资公司在硅谷的人工智能芯片初创公司RainNeuromorphics出售其股份,该公司由OpenAI联合创始人SamAltman支持。🌐**国家安全关切:**Altman支持的RainNeuromorphics筹集了2022年的2500万美元,站长网2023-12-01 14:41:000000ChatGPT惊艳更新,一个@让三百万GPTs为你打工
ChatGPT悄悄更新个大功能!看起来要把插件系统迭代掉了。部分(灰度)用户已经收到这样的提示:现在可以在对话中@任意GPT商店里的GPTs,就像在群聊中@一个人。体验到的博主DanShipper第一时间录视频激动地分享:一个改变游戏规则的功能。在他的演示中,按过去的工作流程还需要手动把与ChatGPT对话内容复制到笔记软件Notion里。站长网2024-01-29 10:14:350000OPPO发布ColorOS 14 AI助手小布接入AndesGPT大模型
在2023年的OPPO开发者大会上,ColorOS14系统正式发布。官方数据表明,ColorOS已经积累了超过6亿的月活用户,并且连续五年成为首批适配新安卓的操作系统。ColorOS始终秉持用户至上的理念,致力于提供极致的系统体验。站长网2023-11-16 11:41:470000春节大礼包!OpenAI首个视频生成模型发布,60秒高清大作,网友已叹服
欢迎来到blingzoo!北京时间今天凌晨,OpenAI正式发布了文本到视频生成模型Sora,继Runway、Pika、谷歌和Meta之后,OpenAI终于加入视频生成领域的战争。山姆・奥特曼的消息放出后,看到OpenAI工程师第一时间展示的AI生成视频效果,人们纷纷表示感叹:好莱坞的时代结束了?站长网2024-02-16 09:52:430000抖音带货新玩法!有人靠AI中年美女图文日入500元
最近在抖音上出现了一个新的带货玩法,就是使用AI生成中年美女的图片,然后配上商品照片制作成图文视频来进行带货。这个玩法流量很高,视频点赞数往往都在几千甚至上万,使用这种形式带货,日入500元是有可能的。站长网2023-08-23 12:45:310002