智谱AI发布评分模型CritiqueLLM 可评估文本生成模型性能
站长网2023-12-12 14:41:501阅
近日,智谱AI发布了高质量、低成本的评分模型CritiqueLLM,用于评估文本生成模型的性能。
传统的评价指标如 BLEU 和 ROUGE 主要基于 n-gram 重合度来计算评分,缺乏对整体语义的把握。而基于模型的评价方法则对基座模型的选取非常依赖,只有顶级的大模型才能取得令人满意的效果。
为了解决这些问题,CritiqueLLM 提出了一种可解释、可扩展的文本质量评价模型。它能够针对各种任务生成高质量的评分和评价解释。在含参考文本的场景下,CritiqueLLM 将大模型生成文本和参考文本进行对比,并给出了评分。
在8类常见的任务中,CritiqueLLM 的评价分数与人工评分的相关系数显著超过了其他模型,尤其是在无参考文本设定下,CritiqueLLM 在3个任务上超过了 GPT-4,达到了最优的评价性能。
CritiqueLLM 的方法包括四个主要步骤:用户询问增广、含参考文本评价数据收集、无参考文本评价数据改写和训练 CritiqueLLM 模型。通过这些步骤,可以得到适用于含参考文本和无参考文本设定的两种 CritiqueLLM 模型,用于评估文本生成模型的性能。
论文链接:https://arxiv.org/abs/2311.18702
Github 链接:https://github.com/thu-coai/CritiqueLLM
0001
评论列表
共(0)条相关推荐
互动小说“嫁接”短剧,能帮ReelShort扳回一局吗?
6月一开始,枫叶互动旗下的ReelShort在应用内开辟了全新的InteractiveGame版块,并火速上线了一部名为《PregnantbyMyEX’sDad》的互动短剧。所谓互动短剧,可简单理解为互动小说和真人短剧的结合体,玩家可以通过文字选项决定故事走向,体验上更有代入感。而这种互动短剧的玩法,也是目前我们看到的头一例。站长网2024-06-07 18:53:510000今晚8点2024天猫618现货开卖:iPhone 15系列大降价 最高优惠2300元
快科技5月20日消息,据天猫官方介绍,2024天猫618将于今晚8点正式开启。这次的天猫618被称为史上最简单实惠的618”,取消了繁琐的预售流程,直接就是现货开售,优惠价直接展示出来,也不用做数学题了。从目前官方公布的活动内容来看,今晚有五折会场重磅回归,百亿补贴全家桶低至2折,88VIP大额券门槛降低等活动。站长网2024-05-21 01:20:570000OpenAI 将 GPT-4 设置为 ChatGPT Plus 付费用户的默认模型
站长之家(ChinaZ.com)8月7日消息:OpenAI最近为ChatGPT引入了几个新功能。其中之一是加入了示例提示、建议回复和后续问题。这些新增功能旨在增强用户体验,在与AI聊天机器人对话时提供更多指导。站长网2023-08-07 09:12:390000三年“掘金”路,微短剧的风吹向哪了?
2020年底至今,微短剧日益受到观众青睐,逐渐成为了各大内容平台的风口。从2018年的初露锋芒到2021年的快速增长,短剧的内容形式百花齐放,创作者与机构不断挖掘热门题材,为用户带来了优秀的内容体验。随着市场发展和用户圈层的细分,短剧领域逐渐走上了精品化道路。画面质量不断提高,内容创作者不断创新设计反转,通过优质内容让短剧行业蓬勃发展,满足了用户及内容市场的需求。站长网2023-08-02 10:35:320000MIT教授警告:当心科技公司陷入“AI竞赛失控”
文章概要:1.MIT教授MaxTegmark警告人工智能科技公司正在进行激烈的“竞赛”,无法停止发展以考虑AI风险。2.Tegmark于2023年3月发起了一封开放信,呼吁暂停六个月开发巨大的AI系统,但未能实现这一目标。3.该信函警告了AI开发的“失控竞赛”,并敦促政府干预,以避免开发比GPT-4更强大的系统。站长网2023-09-21 14:38:200000