智谱AI发布中文 LLM 对齐评测基准AlignBench
站长网2023-12-12 16:39:510阅
智谱AI发布了专为中文大语言模型(LLM)而生的对齐评测基准AlignBench,这是目前第一个针对中文大模型的评测基准,能够在多维度上细致评测模型和人类意图的对齐水平。
AlignBench 的数据集来自于真实的使用场景,经过初步构造、敏感性筛查、参考答案生成和难度筛选等步骤,确保具有真实性和挑战性。数据集分为8个大类,包括知识问答、写作生成、角色扮演等多种类型的问题。

为了实现自动化和可复现性,AlignBench 采用评分模型(如 GPT-4和 CritiqueLLM)为每个模型的回答打分,代表其回答质量。评分模型具有多维度、规则校准的评分方法,提高了模型评分和人类评分的一致性,并提供了细致的评测分析和评测分数。
开发者可以利用 AlignBench 进行评测,并使用评价能力较强的打分模型(如 GPT-4或 CritiqueLLM)进行评分。通过登录 AlignBench 网站,提交结果可以使用 CritiqueLLM 作为评分模型进行评测,大约5分钟即可得到评测结果。
体验地址:https://llmbench.ai/align
0000
评论列表
共(0)条相关推荐
腾讯START云游戏官宣《黑神话:悟空》:没旗舰显卡也能4K开光追
快科技8月18日消息,日前,腾讯START云游戏宣布支持《黑神话:悟空》云游戏,游戏8月20日解锁后,START将第一时间开放云端体验入口。据了解,只要购买WeGame版本《黑神话:悟空》,云游戏限免阶段无需消耗时长也无需开通会员。云游戏首发平台为PC(Win、Mac)、掌机、TV,后续将在适配完成后,陆续开放移动端、网页端等各端体验入口。站长网2024-08-18 10:03:440000ChatGPT迎来史诗级iPhone时刻!OpenAI震撼登陆iOS,可精准识别中文
【新智元导读】ChatGPT破壳登录AppStore,随时随地用,中文语音精准识别,真「iPhone时刻」来临!一夜之间,OpenAI再放大招,ChatGPT官方应用上线!所有iPhone和iPad用户,已经可以从AppStore下载ChatGPT了。不过,目前只能美区的用户可登录。安卓版用户也不要着急,已经在路上了。站长网2023-05-19 14:20:080000OpenAI没说的秘密,Meta全揭了?华人一作GPT-4o同款技术,爆打扩散王者
自回归模型的新突破:首次生成2048×2048分辨率图像!来自Meta、西北大学、新加坡国立大学等机构的研究人员,提出了TokenShuffle,为多模态大语言模型(MLLMs)设计的即插即用操作,显著减少了计算中的视觉token数量,提高效率并促进高分辨率图像合成。图1:采用新技术的27亿参数自回归模型生成的高分辨率图像除了实现超高分辨率图像生成外,生成质量也非常出色。0000Apple GPT明年上iPhone,苹果被爆秘密研发Ajax框架,Siri大升级,市值几秒暴增千亿
站长网2023-07-21 17:06:370000SAP 和 Databricks 使客户能够统一 AI 的数据
站长之家(ChinaZ.com)2月15日消息:SAP和Databricks发布了一项新的合作伙伴关系和产品,旨在通过将SAP数据与其余企业数据结合,帮助客户更轻松地统一所有数据。根据两家公司在2月13日发布的新闻稿,新的SAPDatabricks产品将Databricks数据智能云原生集成到新推出的SAPBusinessDataCloud中。0000