智谱AI发布评分模型CritiqueLLM 可评估文本生成模型性能

站长网2023-12-12 14:41:501阅

近日，智谱AI发布了高质量、低成本的评分模型CritiqueLLM，用于评估文本生成模型的性能。

传统的评价指标如 BLEU 和 ROUGE 主要基于 n-gram 重合度来计算评分，缺乏对整体语义的把握。而基于模型的评价方法则对基座模型的选取非常依赖，只有顶级的大模型才能取得令人满意的效果。

为了解决这些问题，CritiqueLLM 提出了一种可解释、可扩展的文本质量评价模型。它能够针对各种任务生成高质量的评分和评价解释。在含参考文本的场景下，CritiqueLLM 将大模型生成文本和参考文本进行对比，并给出了评分。

在8类常见的任务中，CritiqueLLM 的评价分数与人工评分的相关系数显著超过了其他模型，尤其是在无参考文本设定下，CritiqueLLM 在3个任务上超过了 GPT-4，达到了最优的评价性能。

CritiqueLLM 的方法包括四个主要步骤:用户询问增广、含参考文本评价数据收集、无参考文本评价数据改写和训练 CritiqueLLM 模型。通过这些步骤，可以得到适用于含参考文本和无参考文本设定的两种 CritiqueLLM 模型，用于评估文本生成模型的性能。

论文链接:https://arxiv.org/abs/2311.18702

Github 链接:https://github.com/thu-coai/CritiqueLLM

智谱AI发布评分模型CritiqueLLM可评估文本生成模型性能

0001

评论列表

共(0)条

相关推荐

站长资讯
谷歌发布多模态大模型Gemini 1.0 预计明年初向开发者推出
Gemini是Google推出的最新一代AI模型，Gemini具有多模态的能力，可以处理和结合文本、代码、音频、图像和视频等不同类型的信息。Gemini分为三种规模:Ultra、Pro和Nano，分别针对不同的复杂任务和设备。GeminiUltra——最大、最有能力的模型，适用于高度复杂的任务。GeminiPro——可扩展各种任务的最佳模型。
站长网2023-12-07 08:43:30
0001
站长资讯
3万亿的开放数据集AI2 Dolma发布
即使有许多公开的数据集，也缺乏足够的规模来训练最先进的模型。艾伦人工智能研究所的Dolma数据集旨在实现这一目标，以便研究人员能够在大规模上研究数据效应。该数据集的发布不仅为研究人员提供了更高质量和更大规模的数据，还为人工智能的发展开辟了新的可能性。
站长网2023-08-22 14:57:20
0000
站长资讯
创新免费AI视频创作工具Show-1，仅占普通模型25%GPU内存
文章概要:1.新加坡国立大学研究团队成功研发出名为Show-1的AI系统，能够从文本描述中生成高质量视频。2.Show-1采用像素和潜变模型的混合架构，充分利用了两种方法的优势，实现了文本到视频的精确对齐和高效放大。3.与纯像素模型相比，Show-1仅需使用20-25%的GPU内存，同时在逼真度和文本到视频对齐方面实现了相同或更好的结果。
站长网2023-10-07 10:49:17
0001
站长资讯
英伟达 2024 财年第四季度营收 221 亿美元同比增长265%
英伟达公布了截至2024年1月28日的2024财年第四季度财报，显示公司营收达到了221亿美元，同比增长了惊人的265%，环比增长22%。这一表现超过了分析师预期的204.1亿美元。
站长网2024-02-22 08:36:59
0000
站长资讯
LG CNS 宣布与微软达成合作开发基于 ChatGPT 平台的新服务
韩国云计算服务提供商LGCNS周二表示，它正在加强与美国科技巨头微软的联系，以加快在人工智能、基于云的数字化转型（简称DX）和其他联合项目方面的合作。该公司称，首席执行官HyunShin-gyoon当地时间4月6日在华盛顿州的公司总部会见了微软执行副总裁兼首席商务官JudsonAlthoff，参加了一次高级别管理会议——这是两家公司今年的第二次此类会议。
站长网2023-04-13 11:36:16
0000