香港中文大学发布全面中文大语言模型评测CLEVA
核心要点:
香港中文大学的研究团队发布了全面的中文大语言模型评测方法,已被EMNLP2023System Demonstrations录取。
该评测方法包含31个任务和多种评测指标,覆盖了84个数据集,着重关注准确性、鲁棒性、公平性等多个维度。
评测方法还提供多样的提示模版,降低数据污染风险,以及提供清晰的操作界面,可供研究团队使用和交互评测。
香港中文大学的研究团队最近发布了一项全面的中文大语言模型评测方法,这一方法已经被EMNLP2023System Demonstrations录取。这一评测方法名为CLEVA,是由香港中文大学计算机科学与工程学系的王历伟助理教授领导的研究团队开发的,与上海人工智能实验室合作研究。
CLEVA的目标是为中文大语言模型提供全面的评测,覆盖多个任务和多个评测指标,以更好地理解和评价这些模型的能力。
论文地址:https://arxiv.org/pdf/2308.04813.pdf
这一评测方法包含了31个任务,其中包括11个应用评估和20个能力评测任务,共涵盖了来自84个数据集的370,000多个中文测试样本。这是过去同类工作中样本数量最多的,为全面评测提供了更多的数据支持。
CLEVA不仅关注传统的准确性指标,还引入了鲁棒性、公平性、效率、校准与不确定性、偏见与刻板印象以及毒性等多维度的评测指标,以更全面地评价大语言模型的性能。
为了确保评测的可比性,CLEVA为每个评测任务准备了一组多个提示模板,使所有模型都使用相同的提示模板进行评测。这有助于公平比较模型能力,同时还可以分析模型对不同提示模板的敏感程度,为模型的下游应用提供指导。
此外,CLEVA还采取了多种方法来降低数据污染的风险,包括采用新数据和不断更新的测试集。
这一全面的中文大语言模型评测方法旨在提供更可信的评测结果,为学术界和工业界提供更准确的模型能力认知。研究团队已经使用CLEVA评测了23个中文大模型,并计划持续评测更多的模型。其他研究团队也可以通过CLEVA网站提交和对接评测结果,从而促进大模型能力的认知和评测。
国产3A大作你买没!《黑神话:悟空》发邮件提醒玩家预购
快科技7月4日消息,备受玩家期待的国产3A大作《黑神话:悟空》已在Steam、Epic、腾讯WeGame等平台开启预购,游戏将于8月20日全球同步上线。日前,部分玩家收到了《黑神话:悟空》官方发出的宣传邮件,内容提及游戏预购的相关信息,提醒玩家预购游戏。《黑神话:悟空》提供数字标准版和数字豪华版两种版本,售价分别为268元和328元,DLC豪华升级包售价60元。豪华版额外包含:兵器铜云棒站长网2024-07-04 22:27:2400002024微信视频号合规治理白皮书发布:超5000个账号被封号处理
《2024视频号合规治理白皮书》的发布标志着微信视频号在合规治理方面迈出了重要一步。2023年以来,视频号对规则管理框架进行了全面升级,实现了发布管理、相互支撑、集中展示和动态呈现的"四个统一"。账号管理方面,视频号设置了账号找回机制、肖像授权管理机制,并通过账号ID加强了账号唯一识别能力,同时优化了认证体系。站长网2024-08-08 20:40:100000今日头条诉今日油条案败诉 法院判定今日油条不构成商标侵权
站长之家(ChinaZ.com)4月24日消息:近日,广州市场监管官方公众号披露了2023年广州知识产权保护领域的十大标志性案例,其中今日头条与“今日油条”的商标权纠纷案尤为引人注目。在此案中,今日头条方面未能赢得诉讼。站长网2024-04-24 11:40:200002LLM-Shearing大模型剪枝法:用5%的成本拿下SOTA,比从头开始预训练更划算
要点:1.陈丹琦团队开发了LLM-Shearing大模型剪枝法,可以将大型预训练模型剪枝至低成本,但高性能水平。2.剪枝方法将模型剪枝看作一种约束优化问题,同时学习剪枝掩码矩阵以最大化性能为目标。3.这种方法提供了一种有效的方式,可用于将剪枝后的模型继续预训练,最终超越从头开始预训练的模型。站长网2023-10-12 14:48:430000报道称AI公司出门问问最早年内赴港上市 最高融资3亿美元
据彭博报道,出门问问上个月刚刚推出了自己的AI大语言模型“序列猴子”。知情人士称,该公司正与中金公司和招银国际合作,为首次股票发行做准备,筹资规模或达2亿至3亿美元。上个月,出门问问刚刚推出了自己的AI大语言模型“序列猴子”。知情人士表示,首次公开募股最早可能在今年进行。另外,目前的IPO考虑还处于初步阶段,融资规模和上市时间等细节可能会改变。站长网2023-05-10 16:02:030001