智谱AI发布评分模型CritiqueLLM 可评估文本生成模型性能
站长网2023-12-12 14:41:501阅
近日,智谱AI发布了高质量、低成本的评分模型CritiqueLLM,用于评估文本生成模型的性能。
传统的评价指标如 BLEU 和 ROUGE 主要基于 n-gram 重合度来计算评分,缺乏对整体语义的把握。而基于模型的评价方法则对基座模型的选取非常依赖,只有顶级的大模型才能取得令人满意的效果。
为了解决这些问题,CritiqueLLM 提出了一种可解释、可扩展的文本质量评价模型。它能够针对各种任务生成高质量的评分和评价解释。在含参考文本的场景下,CritiqueLLM 将大模型生成文本和参考文本进行对比,并给出了评分。

在8类常见的任务中,CritiqueLLM 的评价分数与人工评分的相关系数显著超过了其他模型,尤其是在无参考文本设定下,CritiqueLLM 在3个任务上超过了 GPT-4,达到了最优的评价性能。
CritiqueLLM 的方法包括四个主要步骤:用户询问增广、含参考文本评价数据收集、无参考文本评价数据改写和训练 CritiqueLLM 模型。通过这些步骤,可以得到适用于含参考文本和无参考文本设定的两种 CritiqueLLM 模型,用于评估文本生成模型的性能。
论文链接:https://arxiv.org/abs/2311.18702
Github 链接:https://github.com/thu-coai/CritiqueLLM
0001
评论列表
共(0)条相关推荐
谷歌发布多模态大模型Gemini 1.0 预计明年初向开发者推出
Gemini是Google推出的最新一代AI模型,Gemini具有多模态的能力,可以处理和结合文本、代码、音频、图像和视频等不同类型的信息。Gemini分为三种规模:Ultra、Pro和Nano,分别针对不同的复杂任务和设备。GeminiUltra——最大、最有能力的模型,适用于高度复杂的任务。GeminiPro——可扩展各种任务的最佳模型。站长网2023-12-07 08:43:3000013万亿的开放数据集AI2 Dolma发布
即使有许多公开的数据集,也缺乏足够的规模来训练最先进的模型。艾伦人工智能研究所的Dolma数据集旨在实现这一目标,以便研究人员能够在大规模上研究数据效应。该数据集的发布不仅为研究人员提供了更高质量和更大规模的数据,还为人工智能的发展开辟了新的可能性。站长网2023-08-22 14:57:200000创新免费AI视频创作工具Show-1,仅占普通模型25%GPU内存
文章概要:1.新加坡国立大学研究团队成功研发出名为Show-1的AI系统,能够从文本描述中生成高质量视频。2.Show-1采用像素和潜变模型的混合架构,充分利用了两种方法的优势,实现了文本到视频的精确对齐和高效放大。3.与纯像素模型相比,Show-1仅需使用20-25%的GPU内存,同时在逼真度和文本到视频对齐方面实现了相同或更好的结果。站长网2023-10-07 10:49:170001英伟达 2024 财年第四季度营收 221 亿美元 同比增长265%
英伟达公布了截至2024年1月28日的2024财年第四季度财报,显示公司营收达到了221亿美元,同比增长了惊人的265%,环比增长22%。这一表现超过了分析师预期的204.1亿美元。站长网2024-02-22 08:36:590000LG CNS 宣布与微软达成合作 开发基于 ChatGPT 平台的新服务
韩国云计算服务提供商LGCNS周二表示,它正在加强与美国科技巨头微软的联系,以加快在人工智能、基于云的数字化转型(简称DX)和其他联合项目方面的合作。该公司称,首席执行官HyunShin-gyoon当地时间4月6日在华盛顿州的公司总部会见了微软执行副总裁兼首席商务官JudsonAlthoff,参加了一次高级别管理会议——这是两家公司今年的第二次此类会议。站长网2023-04-13 11:36:160000