智谱AI发布中文 LLM 对齐评测基准AlignBench
站长网2023-12-12 16:39:510阅
智谱AI发布了专为中文大语言模型(LLM)而生的对齐评测基准AlignBench,这是目前第一个针对中文大模型的评测基准,能够在多维度上细致评测模型和人类意图的对齐水平。
AlignBench 的数据集来自于真实的使用场景,经过初步构造、敏感性筛查、参考答案生成和难度筛选等步骤,确保具有真实性和挑战性。数据集分为8个大类,包括知识问答、写作生成、角色扮演等多种类型的问题。

为了实现自动化和可复现性,AlignBench 采用评分模型(如 GPT-4和 CritiqueLLM)为每个模型的回答打分,代表其回答质量。评分模型具有多维度、规则校准的评分方法,提高了模型评分和人类评分的一致性,并提供了细致的评测分析和评测分数。
开发者可以利用 AlignBench 进行评测,并使用评价能力较强的打分模型(如 GPT-4或 CritiqueLLM)进行评分。通过登录 AlignBench 网站,提交结果可以使用 CritiqueLLM 作为评分模型进行评测,大约5分钟即可得到评测结果。
体验地址:https://llmbench.ai/align
0000
评论列表
共(0)条相关推荐
华为HarmonyOS 4下午16时开启升级公测 首批支持34款设备
华为宣布,HarmonyOS4今天下午16:00开启升级公测,以及开放Beta版测试报名。今日起,华为将为Mate50系列、P60系列、MateX3、MatePadPro12.6英寸等34款产品启动公测升级,同时为P40系列、Mate30系列以及nova9、nova10等35款产品启动花粉Beta招募。站长网2023-08-04 16:07:570000谷歌人工智能鉴定美国登月照片系合成造假 俄罗斯表示有趣
快科技11月25日消息,据国外媒体报道称,谷歌人工智能鉴定美国登月照片系合成造假,这引起了网友围观。在莫斯科举行的人工智能世界之旅”国际会展上,美国谷歌公司的人工智能对一张美国登月的任务照片进行数据分析,用红色标注出该人工智能认为可能造假的部分。最后这张照片几乎每个部分都被标注上鲜艳的红色,这表示美国谷歌的人工智能分析认为:这张美国登月的任务照片是造假合成的。0000视频号做IP的四种硬核赚钱玩法
“微信是互联网时代的身份证,视频号就是互联网时代的个人名片。”十点读书副总裁廖仕健在此前一次面向见实会员的视频号主题私享会上如是说道。随着微信生态的不断发展,视频号逐渐成为了商家和创作者们关注的焦点。它不仅提供了丰富的创作工具和展示平台,还为商业变现提供了多种途径。在这个过程中,视频号的商业化发展也呈现出一些显著的特点和趋势。在日常观察中,廖仕健就发现知识博主在视频号有4种赚钱硬核玩法。站长网2023-11-03 09:13:480000抖音又出了一个“辛吉飞”
靠揭秘临期食品行业内幕,抖音博主“临期也狗”走红,一周涨粉近百万。另一位名叫“尖商胖丁”的博主,也在最近一周涨粉近80万。这两人,被称为“临期食品行业的辛吉飞”,进入上一周抖音涨粉榜前三。短短几天涨粉百万,为什么他们如此受欢迎?他们揭露了临期食品行业的哪些内幕?与此同时,大家可能也好奇,临期食品是一门怎样的生意?接下来,派代将带你一起深入了解。临期食品终归要走“直播带货”站长网2023-04-17 10:58:070000半小时教你手搓AI视频通话,还有懒人版代码已开源
GPT-4o的“AI视频通话”一鸽再鸽,但网友却是急不可耐想要体验。于是,一位名叫Santiago(我们叫他三哥)的博主,用160行Python代码尝试了复刻。虽然技术路线和《Her》有所差别,但从直观效果来看,也算得上是给网友们带来了新的玩具。而且不仅是炫技,三哥是真的在试图把网友教会,用了半个多小时的时间讲解他的操作过程。站长网2024-07-09 16:09:350000