首页站长资讯多模态LLM幻觉问题降低30%！业内首个“啄木鸟”免重训方法诞生｜中科大

11945

多模态LLM幻觉问题降低30%！业内首个“啄木鸟”免重训方法诞生｜中科大

站长网2023-10-30 21:08:410阅

还在用指令微调解决多模态大模型的“幻觉”问题吗?

比如下图中模型将橙色柯基错认为“红狗”，还指出周围还有几条。

现在，中科大的一项研究想到了一个全新办法:

一个免重训、即插即用的通用架构，直接从模型给出的错误文本下手，“倒推”出可能出现“幻觉”之处，然后与图片确定事实，最终直接完成修正。

他们将这个方法命名为“啄木鸟”（Woodpecker）。

就像这位所谓的“森林医生”先找出树木的虫洞再吃掉里面的虫子一样，本文中所提出的“啄木鸟”也是多模态大模型们的“幻觉”医生，能够将问题先诊断出来再一一纠正。

结果是“医术确实高明”，成功将:

（1）MiniGPT-4的准确性从54.67%提高到了85.33%;

（2）mPLUG Ow的准确性从62%提到了86.33%。

如下图所示，各种难以检测到的小对象、复杂的计数场景，它都能没问题。

那么，它具体是如何诊断的呢?

“啄木鸟法”治疗多模态LLM幻觉

目前，业内对于大模型幻觉问题的解决办法基本都是用特定数据进行指令微调。

比如说，一些多模态大模型（MLLM）在回答问题时总是倾向于肯定答案(eg. 面对一个光头人物图，问它头发是什么颜色，张口就说“黑”)，那么我们再喂给模型一些包含负样本的数据，就能解决它“无中生有”的幻觉，遇到没有的就说“no”。

除了指令微调，也有的会进行架构调整，反正都要重新训练一个新的模型。

本文提出的“啄木鸟”框架，是业内第一个无需此操作就能解决“幻觉”的全新办法。

它一共分为5个步骤，每一步都采用了清晰透明的设计方式，因此具备良好的可解释性。

具体而言:

第一步，关键概念提取。

指找出模型给出的答案中提到的主要对象，即最有可能解除“幻觉”的元素。

例如对于下图，多模态大模型最开始可能描述图中有一辆自行车停在一个垃圾桶旁边，还说图上有几个人从垃圾桶旁边走过。

那么，我们就可以得到三个关键概念:自行车、垃圾桶和人。

第二步，问题构造。

指在获取关键概念后，围绕它们提出一些问题有助于检验“幻觉”所在的问题。

可主要分为对象层面和属性层面，前者可以问“图中有几辆自行车?”，后者可问“垃圾桶位于什么位置?”。

在此，由于属性问题比较依赖于上下文，作者也用了一些带有上下文的例子来提示模型，以便提出的问题更有意义

第三步，视觉验证。

指引用专家模型回答上步提出的所有问题，方便后续校正。

对于对象层面的问题，例如我们利用GroundingDINO来进行目标检测，确定关键目标是否存在以及关键目标的数量。

对于属性问题，则用BLIP-2来搞定。这类传统VQA模型输出答案的长度有限，"幻觉"问题更少。

第四步，视觉断言生成。

简单来说，就是基于于前两步中获得的问题以及对应的视觉信息，合成结构化的“视觉断言”。

格式如下:

最后，“幻觉”纠正。

即根据上步的总结比对模型原始的输出，得出新的答案。

具体实施环节中，“啄木鸟”采用GPT-3.5-turbo来完成关键概念提取、提问和最后一步的纠正。

由于一些多模态模型的指令跟随能力较弱，导致结果可能输出无关文本（例如表情、特殊符号），再加上有时一些模型只输出一个“是”或“否”，这让实际的校正过程也面临挑战。

不过，我们两个简单措施就可以搞定:

（1）将模型回答的“是”或“否”与“啄木鸟”给出的答案组合起来，比如“是的，图像中有一只狗”，就不怕模型原本只是给出一个简单的“yes or no”逃过校正了。

（2）在校正过程中，将原始问题添加到LLM，以便LLM更好地掌握文本和任务要求。

效果验证:幻觉减少30%

整个方法看起来非常好理解，效果如何呢?

在此，作者在POPE、MME和LLaVA-QA90数据集上进行了全面的定量和定性实验。

基线模型选用这四个主流多模态大模型:

MiniGPT-4、mPLUG Owl、LLaVA和Otter。

最终，POPE数据集上的结果如下:

（w/Ours表示由“啄木鸟”校正的MLLM响应，x为未采用，对勾为采用）

可以看到，“啄木鸟”都能给这几个模型带来不同程度的提升，同时大幅降低模型回答“yes”的概率。

其中在随机设定下，它给MiniGPT-4和mPLUG-Owl和在准确率指标上分别带来了30.66%和24.33%的提升。

在更全面的MME数据集上，“啄木鸟”也有效减少了多模态大模型在对象级和属性级层面的“幻觉”，也就是某物是否存在、数量多少，以及它的位置和颜色。

比如LLaVA的颜色得分从78.33分大幅提升到155分。

不过，位置方面的“幻觉”提升不是特别大，作者推测可能是VQA模型BLIP-2在位置推理方面的能力相对较弱等原因造成的。

为了更直接地衡量修正表现，更直接的方式是使用开放评测。

不同于以往将图片转译后送入纯文本GPT-4的做法，作者利用OpenAI最近开放的视觉接口，提出使用GPT-4V对修正前后的图片描述直接对下列两个维度进行打分:

（1）准确度:模型的答复相对于图片内容是否准确;

（2）细节程度:模型答复的细节丰富度。

在该实验条件下，实验结果如下表所示（满分为10）:

结果表明经过“啄木鸟“修正后图片描述的准确性有一定的提升，这说明该框架可以有效修正描述中幻视的部分。

另一方面，“啄木鸟“修正后引入的定位信息丰富了文本描述，提供了进一步的位置信息，从而提升了细节丰富度。

GPT-4V辅助的评测样例如下图所示:

试玩

还有Demo供大家测试使用。

如下图所示，上传图片并输入请求，就可以得到修正前以及修正后的模型答复，以及供参考验证的新图片。

Woopecker论文地址:

https://arxiv.org/abs/2310.16045

Woopecker代码地址:

https://github.com/BradyFU/Woodpecker

—完—

多模态LLM幻觉问题降低30业内首个啄木鸟免重训方法诞生中科大

0000

评论列表

共(0)条

相关推荐

站长资讯
一文回顾B站2023：超130位UP主年涨粉百万，流量流向不缺流量的人？
2023年，B站没有横空出世的新顶流。新榜旗下B站数据工具“新站”显示，过去一年，粉丝量级Top的UP主大多是老面孔，千万粉UP主没有新成员，粉丝最多的个人创作者仍是“罗翔说刑法”，截至目前B站粉丝数2982万。而罗翔去年的涨粉数量，也能排到整个B站的前三，一年涨粉410万。势头虽然依旧凶猛，却不及2022年505万的涨幅。截至目前B站粉丝量最高的账号Top5数据来自新站
站长网2024-02-05 18:18:09
0002
站长资讯
美国法院否认AI图像版权，但这一裁决意义不大
AI发明家StephenThaler试图对人工智能生成的内容实施版权保护，但再次失败。美国地区法官BerylA.Howell在上周裁决中表示，AI图像无法获得版权，维持了美国版权局在2022年2月的意见，认为Thaler的AI图像《最近进入天堂的场景》不适用版权法保护。
站长网2023-08-21 14:36:33
0000
站长资讯
新规来了！探店视频挂链接将视为广告，乱象该停止了......
监管之风，吹向了乱象丛生的探店内容赛道。近日，有消息称，《互联网广告管理办法》即将在5月1日实施，其中提到“通过知识介绍、体验分享、消费测评等形式推销商品或者服务，并附加购物链接等购买方式的，广告发布者应当显著标明‘广告’”，而大众所熟悉的达人探店类短视频内容，属于该规定范围内。这意味着，以后探店视频要么不再能挂上链接，要么就变成广告。
站长网2023-04-26 09:05:25
0000
胖东来，靠电商冲出河南？
胖东来今年频繁登上热搜。“胖东来一件羽绒服仅赚3毛钱”、“胖东来停售农残超标蔬菜”……在普通消费者心目中，胖东来俨然成了烙上“免检标签”的明星超市，无论是假羽绒服还是卫生巾塌方，都引发了一些人对胖东来相关产品的抢购。相对应的，胖东来代购商业链日益庞大，代购团队甚至逐渐走向职业化。这条商业链下，胖东来和普通本地顾客为代购而烦恼，另一边不少博主已经靠着直播代购胖东来商品赚得盆满钵满。
站长网站长资讯2024-12-26 18:09:39
0000
Meta扎克伯格与日本首相讨论生成式AI风险和未来战略
划重点:-💡MetaCEO扎克伯格与日本首相岸田就生成式人工智能的风险和机遇展开关键对话。-💡讨论重点包括生成式AI技术的潜在风险、全球合作治理AI的必要性以及未来战略。-💡两位领袖的对话突出了科技行业和政府之间在引导AI发展方向和保障社会利益方面的共同责任。
站长网站长资讯2024-02-28 11:39:16
0000