智谱AI发布中文 LLM 对齐评测基准AlignBench
站长网2023-12-12 16:39:510阅
智谱AI发布了专为中文大语言模型(LLM)而生的对齐评测基准AlignBench,这是目前第一个针对中文大模型的评测基准,能够在多维度上细致评测模型和人类意图的对齐水平。
AlignBench 的数据集来自于真实的使用场景,经过初步构造、敏感性筛查、参考答案生成和难度筛选等步骤,确保具有真实性和挑战性。数据集分为8个大类,包括知识问答、写作生成、角色扮演等多种类型的问题。
为了实现自动化和可复现性,AlignBench 采用评分模型(如 GPT-4和 CritiqueLLM)为每个模型的回答打分,代表其回答质量。评分模型具有多维度、规则校准的评分方法,提高了模型评分和人类评分的一致性,并提供了细致的评测分析和评测分数。
开发者可以利用 AlignBench 进行评测,并使用评价能力较强的打分模型(如 GPT-4或 CritiqueLLM)进行评分。通过登录 AlignBench 网站,提交结果可以使用 CritiqueLLM 作为评分模型进行评测,大约5分钟即可得到评测结果。
体验地址:https://llmbench.ai/align
0000
评论列表
共(0)条相关推荐
儿童虐待者利用人工智能生成“深度伪造品”引发性勒索循环
儿童虐待者正在利用人工智能技术制作"深度伪造品"来勒索受害者拍摄自己的虐待行为,从而开始一个可持续数年的性勒索循环。在英国,制作模拟虐待儿童图像是非法的,工党和保守党一致呼吁禁止所有由人工智能生成的露骨图像。但全球范围内对如何监管这一技术几乎没有达成共识。更糟糕的是,只需按一下按钮就能创造出更多此类图像,因为明确的图像已成为人工智能图像生成的基础。站长网2024-04-23 14:46:530000商拍换装平台Jay创作 提供一站式AI商拍解决方案
Jay创作是一款专为电商卖家打造的AI商拍工具,以AI模特为核心,提供一站式AI商拍解决方案,旨在帮助电商卖家克服传统商拍成本高、效率低的问题。使用Jay创作,用户可以一键拍出服装模特图,无需实际模特,适合各地市场。同时,也可以切换商品场景,拍摄商业级摄影效果。批量商品背景去除,精准识别商品主体和边缘细节等。站长网2023-10-25 19:36:350000一年花5万,中产鸡娃撑起攀岩新商机
从小众运动到大众解压神器,不受天气限制的攀岩正在出圈。在社交平台上,360集团创始人周鸿祎三天两头分享着自己“磕线”的视频,他在2024年1月投资了一家名为“我攀”的攀岩品牌。年轻人毫无掩饰对这项运动的好奇,2023年⼩红书就约有“攀岩”相关笔记65万。据2023年国家体育总局登山运动管理中心数据显示,2012年全国的攀岩爱好者只有近1万人,截至2023年年底,已增长至50余万人。0000孟羽童个人简介是前500强董事长秘书 此前遭董明珠怒斥
12月14日,一则关于董明珠在格力电器2023届大学生入职仪式中怒斥孟羽童的视频引发热议,话题#董明珠怒斥孟羽童#迅速登上热搜。视频中,董明珠表示,当时在实习生节目中看中孟羽童的勤奋,选她做秘书。但在工作中,孟羽童的表现并未达到她的期望,反而只想借助格力平台成为网红,在公司产生了不良影响。站长网2023-12-15 10:15:020000马斯克万亿追击OpenAI,钢铁侠大战奥特曼
钢铁侠大战奥特曼,已经在大洋彼岸的美国上演了,而且比电影里精彩多了,这是一场靠燃烧美元持续的朴实无华的商战。这个奥特曼就是OpenAI的CEO山姆奥特曼了,钢铁侠就是埃隆马斯克了。在9月11日这个对美国来说有特殊意义的日子,彭博社发消息说OpenAI又要融资了。这次是要以1500亿美金的估值进行65亿美金的融资。同时还在盘算着以循环贷款的模式向银行借50亿美金。0000