大模型总结摘要靠谱吗?比人类写的流畅,用GPT-4幻觉还少
以后文本摘要总结任务,可以放心交给大模型了。
文本摘要,作为自然语言生成(NLG)中的一项任务,主要用来将一大段长文本压缩为简短的摘要,例如新闻文章、源代码和跨语言文本等多种内容都能用到。
随着大模型(LLM)的出现,传统的在特定数据集上进行微调的方法已经不在适用。
我们不禁会问,LLM 在生成摘要方面效果到底如何?
为了回答这一问题,来自北京大学的研究者在论文《 Summarization is (Almost) Dead 》中进行了深入的探讨。他们使用人类生成的评估数据集评估了 LLM 在各种摘要任务(单条新闻、多条新闻、对话、源代码和跨语言摘要)上的表现。
在对 LLM 生成的摘要、人工撰写的摘要和微调模型生成的摘要进行定量和定性的比较后发现,由 LLM 生成的摘要明显受到人类评估者的青睐。
接着该研究在对过去3年发表在 ACL、EMNLP、NAACL 和 COLING 上的100篇与摘要方法相关的论文进行抽样和检查后,他们发现大约70% 的论文的主要贡献是提出了一种总结摘要方法并在标准数据集上验证了其有效性。因此,本文表示「摘要(几乎)已死( Summarization is (Almost) Dead )」。
尽管如此,研究者表示该领域仍然存在挑战,例如需要更高质量的参考数据集、改进评估方法等还需要解决。

论文地址:https://arxiv.org/pdf/2309.09558.pdf
方法及结果
该研究使用最新的数据来构建数据集,每个数据集由50个样本组成。
例如在执行单条新闻、多条新闻和对话摘要任务时,本文采用的方法模拟了 CNN/DailyMail 、Multi-News 使用的数据集构建方法。对于跨语言摘要任务,其策略与 Zhu 等人提出的方法一致。关于代码摘要任务,本文采用 Bahrami 等人提出的方法。
数据集构建完成之后,接下来就是方法了。具体来说,针对单条新闻任务本文采用 BART 和 T5;多条新闻任务采用 Pegasus 和 BART;T5和 BART 用于对话任务;跨语言任务使用 MT5和 MBART ;源代码任务使用 Codet5。
实验中,该研究聘请人类评估员来比较不同摘要的整体质量。结果如图1所示,LLM 生成的摘要在所有任务中始终优于人工生成的摘要和微调模型生成的摘要。

这就提出了一个问题:为什么 LLM 能够胜过人类撰写的摘要,而传统上人们认为这些摘要是完美无缺的。此外,经过初步的观察表明,LLM 生成的摘要表现出高度的流畅性和连贯性。
本文进一步招募注释者来识别人类和 LLM 生成摘要句子中的幻觉问题,结果如表1所示,与 GPT-4生成的摘要相比,人工书写的摘要表现出相同或更高数量的幻觉。在多条新闻和代码摘要等特定任务中,人工编写的摘要表现出明显较差的事实一致性。

人工撰写的摘要和 GPT-4生成摘要中出现幻觉的比例,如表2所示:

本文还发现人工编写的参考摘要存在这样一个问题,即缺乏流畅性。如图2(a) 所示,人工编写的参考摘要有时存在信息不完整的缺陷。并且在图2(b) 中,一些由人工编写的参考摘要会出现幻觉。

本文还发现微调模型生成的摘要往往具有固定且严格的长度,而 LLM 能够根据输入信息调整输出长度。此外,当输入包含多个主题时,微调模型生成的摘要对主题的覆盖率较低,如图3所示,而 LLM 在生成摘要时能够捕获所有主题:

由图4可得,人类对大模型的偏好分数超过50%,表明人们对其摘要有强烈的偏好,并凸显了 LLM 在文本摘要方面的能力:

网易发布暴雪游戏开放退款说明 退款申请截止日期为6月30日
网易官方发布《关于暴雪游戏产品运营到期开放退款的说明》称,针对玩家在“暴雪游戏产品”中已充值但未消耗的虚拟货币或未失效的游戏服务开放退款申请通道。网易在公告中表示,提交退款申请的截止日期为2023年6月30日,未在截止日期前提交退款申请的玩家将被视为主动放弃相关权益。站长网2023-04-12 16:03:210001“听一听”低调内测半年,微信偷偷造了一个“小宇宙”
阅读量几千的公众号文章,音频收听量竟能冲到10万?近期,新榜编辑部发现,一篇来自“郎言志”公众号的《外蒙古为何“全民反华”:泛蒙主义与法西斯思想泛滥,正常人80年前都给杀干净了!》的推文阅读量刚破七千,但音频却有超10万人收听。知情人士透露,因为文章朗读音频进入了微信“听一听”流量池,所以才会出现图文阅读数和音频收听数据反差较大的情况。站长网2024-06-28 22:30:500000小米MIX Flip竖向折叠手机正式入网 搭载67W快充技术
站长之家(ChinaZ.com)5月11日消息:近日,一款型号为2405CPX3DC的小米5G数字移动电话机通过了3C认证,这款预测为小米首款竖向折叠手机——MIXFlip。MIXFlip的充电能力十分出色,最高支持67W快充技术,为用户带来高效的充电体验。该手机由北京昌数科技有限公司生产,即小米的自家工厂,保证了其品质和工艺的精良。站长网2024-05-11 11:37:520000开虚拟歌会、组偶像男团,语音直播正在引领下一个新风口?
语聊厅主播也能开歌会?还能组男团?10月23日晚,抖音头部多人语聊厅“听潮阁男明星”举办了一场线上虚拟歌会。四位来自语聊厅的主播——北夜、游戈、野洵和尹妹,真人身穿动捕服通过虚拟形象现身舞台,给歌迷带来了精彩的歌曲表演和游戏互动。这也是他们四人所组成的虚拟男团“天外少年”的首次亮相。对于“听潮阁”,业内人士并不陌生。其背后机构是“星天外”,不到一年就成为了抖音头部语音直播机构。站长网2023-10-25 11:59:180000三星确认 Galaxy S24 将是一款「人工智能手机」
三星最近在商标注册方面动作频频,不仅涵盖了几个月后推出的产品,还包括像GalaxyS25或GalaxyZFold7这样几乎还有两年时间才会推出的产品。据GalaxyClub的消息,三星不仅申请了智能戒指和AR眼镜等其他类别产品的商标,而且在不同国家提交了许多其他申请,其中一项确认了GalaxyS24将作为AI手机进行市场推广。站长网2023-11-27 11:19:280000