香港中文大学发布全面中文大语言模型评测CLEVA
核心要点:
香港中文大学的研究团队发布了全面的中文大语言模型评测方法,已被EMNLP2023System Demonstrations录取。
该评测方法包含31个任务和多种评测指标,覆盖了84个数据集,着重关注准确性、鲁棒性、公平性等多个维度。
评测方法还提供多样的提示模版,降低数据污染风险,以及提供清晰的操作界面,可供研究团队使用和交互评测。
香港中文大学的研究团队最近发布了一项全面的中文大语言模型评测方法,这一方法已经被EMNLP2023System Demonstrations录取。这一评测方法名为CLEVA,是由香港中文大学计算机科学与工程学系的王历伟助理教授领导的研究团队开发的,与上海人工智能实验室合作研究。
CLEVA的目标是为中文大语言模型提供全面的评测,覆盖多个任务和多个评测指标,以更好地理解和评价这些模型的能力。
论文地址:https://arxiv.org/pdf/2308.04813.pdf
这一评测方法包含了31个任务,其中包括11个应用评估和20个能力评测任务,共涵盖了来自84个数据集的370,000多个中文测试样本。这是过去同类工作中样本数量最多的,为全面评测提供了更多的数据支持。
CLEVA不仅关注传统的准确性指标,还引入了鲁棒性、公平性、效率、校准与不确定性、偏见与刻板印象以及毒性等多维度的评测指标,以更全面地评价大语言模型的性能。
为了确保评测的可比性,CLEVA为每个评测任务准备了一组多个提示模板,使所有模型都使用相同的提示模板进行评测。这有助于公平比较模型能力,同时还可以分析模型对不同提示模板的敏感程度,为模型的下游应用提供指导。
此外,CLEVA还采取了多种方法来降低数据污染的风险,包括采用新数据和不断更新的测试集。
这一全面的中文大语言模型评测方法旨在提供更可信的评测结果,为学术界和工业界提供更准确的模型能力认知。研究团队已经使用CLEVA评测了23个中文大模型,并计划持续评测更多的模型。其他研究团队也可以通过CLEVA网站提交和对接评测结果,从而促进大模型能力的认知和评测。
马斯克诉OpenAI,真为人类福祉?
埃隆·马斯克怼OpenAI不是一次两次了,这次直接搞个大事,把OpenAI告上了美国旧金山高等法院。3月1日消息显示,马斯克指控OpenAI及其首席执行官山姆·奥特曼违反了成立时签订的协议,即为了人类的利益而不是利润开发技术。诉求是要求法院发布禁令,禁止OpenAI、微软从该公司的通用人工智能(AGI)技术中获利。站长网2024-03-11 17:35:240000《纽约时报》屏蔽了 OpenAI 的网络爬虫GPTBot
本文概要:1.《纽约时报》阻止OpenAI使用其内容训练AI模型。2.《纽约时报》更新服务条款,禁止使用其内容进行人工智能训练。3.《纽约时报》可能考虑对OpenAI采取法律行动。站长网2023-08-22 10:21:260000一加13全球首发太阳显示技术:阳光再刺眼 屏幕也清晰
一加手机官方宣布,即将推出的一加13将全球首次搭载太阳显示技术,这一技术使得手机屏幕即使在刺眼的阳光下也能保持清晰可见。这项技术通过提升屏幕的感知立体色域110%,以及明度、彩度和感知动态对比度35%,优化了屏幕在户外环境下的显示效果。它还能根据强光自动调整增强效果,适应不同的户外天气条件,同时兼顾了可视性、功耗和发热。0000贾跃亭:早日回国是我最大梦想 还债之日就是回国之时
快科技4月25日消息,今天下午贾跃亭发布最新视频称:早日还债回国是自己的最大梦想,已偿还100多亿美金债务。造车成功并还债之日就是自己回国之时。以下是贾跃亭视频文字版:0000网易有道推出“子曰”大模型2.0版本 并发布AI家庭教师“小P老师”
教育科技公司网易有道在1月3日举办的发布会上推出了国内首个教育大模型"子曰"2.0版本,并发布了基于大模型研发的三大创新应用及一款智能硬件新品。其中,最受关注的是AI家庭教师"小P老师",它能够为学生提供全学段、全学科的答疑支持,并通过互动沟通的方式启发孩子们的思维。目前,小P老师已率先落地于有道AI学习机X20。站长网2024-01-04 09:15:070001