智谱AI发布中文 LLM 对齐评测基准AlignBench
站长网2023-12-12 16:39:510阅
智谱AI发布了专为中文大语言模型(LLM)而生的对齐评测基准AlignBench,这是目前第一个针对中文大模型的评测基准,能够在多维度上细致评测模型和人类意图的对齐水平。
AlignBench 的数据集来自于真实的使用场景,经过初步构造、敏感性筛查、参考答案生成和难度筛选等步骤,确保具有真实性和挑战性。数据集分为8个大类,包括知识问答、写作生成、角色扮演等多种类型的问题。
为了实现自动化和可复现性,AlignBench 采用评分模型(如 GPT-4和 CritiqueLLM)为每个模型的回答打分,代表其回答质量。评分模型具有多维度、规则校准的评分方法,提高了模型评分和人类评分的一致性,并提供了细致的评测分析和评测分数。
开发者可以利用 AlignBench 进行评测,并使用评价能力较强的打分模型(如 GPT-4或 CritiqueLLM)进行评分。通过登录 AlignBench 网站,提交结果可以使用 CritiqueLLM 作为评分模型进行评测,大约5分钟即可得到评测结果。
体验地址:https://llmbench.ai/align
0000
评论列表
共(0)条相关推荐
网易发布2023年财报:生成式AI已全面渗透核心业务
2月29日,网易公布了其2023年第四季度以及全年的财务报告。报告显示,网易通过聚焦核心业务、加大技术自研投入以及推动创新,实现了稳健的业绩增长。首先,网易在游戏、音乐、教育等核心业务领域,通过应用生成式AI等关键自研技术,大幅提升了数字生产力,实现了内容垂类赛道的突破,为公司的长期发展注入了新的活力。站长网2024-02-29 17:30:490000苹果将销售没有血氧检测功能的手表 预计明天上架
站长之家(ChinaZ.com)1月18日消息:近日,苹果公司面临了一项重大挑战。美国国际贸易委员会(ITC)发布禁令,禁止在美国销售AppleWatchSeries9和AppleWatchUltra2。这一禁令源于苹果与Masimo医疗科技公司之间的知识产权纠纷。站长网2024-01-18 12:01:220000快手内测智能问答产品 为短视频直播行业首个大模型应用
近日,有消息称,快手目前正在进行智能问答产品的内测,该产品将在搜索场景中提供智能问答和文本创作等新功能。这是短视频直播行业首个基于大语言模型落地的应用产品。通过快手App的搜索功能,用户输入问题后有机会获得来自智能问答产品提供的信息和答案,这将在原有搜索结果基础上提供更加直接有效的信息补充,从而大幅提升用户搜索体验。站长网2023-07-10 18:31:010000深度求索开源DeepSeek LLM 67B大模型 无需申请免费商用
深度求索发布了一个67B的大模型,名为DeepSeekLLM67B。这个模型完全开源,可以通过访问chat.deepseek.com来使用。DeepSeekLLM67B在公开评测榜单上表现良好,特别是在推理、数学和编程能力方面。DeepSeek还开源了7B和67B的两种规模的模型,并提供了9个训练中途的模型checkpoints的下载。站长网2023-11-30 09:53:130002OpenAI和微软被The Intercept等三家新闻机构起诉,指控侵犯版权
**划重点:**1.🚫《TheIntercept》,《RawStory》和《AlterNet》指控OpenAI和Microsoft故意从培训数据中删除作者、标题等重要版权信息。2.📝原告声称ChatGPT在一些情况下“抄袭或几乎抄袭”受版权保护的新闻作品,却未提供其中的作者、标题、版权或使用条款信息。站长网2024-02-29 09:39:420000