智谱AI发布评分模型CritiqueLLM 可评估文本生成模型性能
站长网2023-12-12 14:41:501阅
近日,智谱AI发布了高质量、低成本的评分模型CritiqueLLM,用于评估文本生成模型的性能。
传统的评价指标如 BLEU 和 ROUGE 主要基于 n-gram 重合度来计算评分,缺乏对整体语义的把握。而基于模型的评价方法则对基座模型的选取非常依赖,只有顶级的大模型才能取得令人满意的效果。
为了解决这些问题,CritiqueLLM 提出了一种可解释、可扩展的文本质量评价模型。它能够针对各种任务生成高质量的评分和评价解释。在含参考文本的场景下,CritiqueLLM 将大模型生成文本和参考文本进行对比,并给出了评分。
在8类常见的任务中,CritiqueLLM 的评价分数与人工评分的相关系数显著超过了其他模型,尤其是在无参考文本设定下,CritiqueLLM 在3个任务上超过了 GPT-4,达到了最优的评价性能。
CritiqueLLM 的方法包括四个主要步骤:用户询问增广、含参考文本评价数据收集、无参考文本评价数据改写和训练 CritiqueLLM 模型。通过这些步骤,可以得到适用于含参考文本和无参考文本设定的两种 CritiqueLLM 模型,用于评估文本生成模型的性能。
论文链接:https://arxiv.org/abs/2311.18702
Github 链接:https://github.com/thu-coai/CritiqueLLM
0001
评论列表
共(0)条相关推荐
SambaNova发布全新AI芯片SN40L 可运行5万亿参数模型
文章概要:-SambaNova发布了一款智能AI芯片SN40L,可运行高达5万亿参数的模型,实现快速可扩展的推理和训练,而不损害模型准确性。-这款由TSMC制造的SN40L芯片可以在单个系统节点上为5万亿参数模型提供256k的序列长度,这是通过整合技术的新突破,大大提高了模型质量、推理速度,并降低了总拥有成本。站长网2023-09-26 16:28:510000微软总裁表示短期内不可能出现超级智能 AGI,强调 AI 安全的重要性
微软公司总裁表示,在未来12个月内创造出超智能人工智能(AI)的可能性几乎不存在,并警告称这项技术可能还需数十年时间才能实现。OpenAI的联合创始人SamAltman本月早些时候被公司董事会免去首席执行官职务,但在员工和股东的强烈反对声中迅速被重新任命。站长网2023-12-01 08:56:310000波兰首个人工智能主持的广播节目推出
波兰首个由人工智能主持的广播节目在南部城市PiekaryŚląskie的RadioPiekary电台首播。人工智能主持人Basia以讨论世界大脑日和人脑的无限可能性作为节目开场。Basia还开玩笑说想要为自己捐赠大脑,询问听众对使用数字实体作为演示者的看法。站长网2023-07-25 15:51:470000突破算力限制!Meta开源“记忆层”,重塑Transformer架构大模型
今天凌晨3点,全球社交巨头Meta分享了一个创新研究——Memorylayers(记忆层)。目前,Transformer架构的预训练大模型在存储、查询数据时,随着参数的变大对算力的需求呈指数级增长。“记忆层”提出了新的高效查询机制替代了传统的查询方法,通过比较查询键与两个较小集合中的键,可以快速找到最相关的键,而无需遍历模型的整个记忆层。站长网2025-01-03 14:02:520000