GPT-4不知道自己错了! LLM新缺陷曝光,自我纠正成功率仅1%,LeCun马库斯惊呼越改越错
【新智元导读】GPT-4根本不知道自己犯错?最新研究发现,LLM在推理任务中,自我纠正后根本无法挽救性能变差,引AI大佬LeCun马库斯围观。
大模型又被爆出重大缺陷,引得LeCun和马库斯两位大佬同时转发关注!
在推理实验中,声称可以提高准确性的模型自我纠正,把正确率从16%「提高」到了1%!
简单来说,就是LLM在推理任务中,无法通过自我纠正的形式来改进输出,除非LLM在自我纠正的过程中已经知道了正确答案。
由ASU研究人员发表的两篇论文,驳斥了之前很多研究提出的方法「自我纠正」——让大模型对自己的输出的结果进行自我纠正,就能提高模型的输出质量。
论文地址:https://arxiv.org/abs/2310.12397
论文地址:https://arxiv.org/abs/2310.08118
论文的共同作者Subbarao Kambhampati教授,一直致力于AI推理能力的相关研究,9月份就发表过一篇论文,甚至全盘否定了GPT-4的推理和规划能力。
论文地址:https://arxiv.org/pdf/2206.10498.pdf
而除了这位教授之外,最近DeepMind和UIUC大学的研究者,也针对LLM在推理任务中的「自我纠正」的能力提出了质疑。
这篇论文甚至呼吁,所有做相关研究的学者,请严肃对待你们的研究,不要把正确答案告诉大模型之后再让它进行所谓的「自我纠正」。
因为如果模型不知道正确答案的话,模型「自我纠正」之后输出质量反而会下降。
https://arxiv.org/abs/2310.01798
接下来,就具体来看看这两篇最新论文。
GPT-4「自我纠正」,输出结果反而更差
第一篇论文针对GPT-4进行研究,让GPT-4对图形着色问题提供解决方案,然后让GPT-4对于自己提出方案进行「自我纠正」。
同时,作者再引入一个外部的评估系统对GPT-4的直接输出,和经过了「自我纠正」循环之后的输出进行评价。
实验结果显示,GPT-4在猜测颜色方面的准确率还不到20%,这个数值似乎并不让人意外。
但令人惊讶的是,「自我纠正」模式下的准确性却大幅下降(下图第二根柱状条 )——与所有自我纠正本意完全背道而驰!
作者认为,这种看似反直觉的情况可以这么解释:GPT-4在验证正确答案的表现也很糟糕!
因为即使当GPT-4偶然猜到正确颜色时,它的「自我纠正」会使它觉得正确答案是有问题的,然后就把正确答案给替换掉了。
通过进一步研究后还发现:如果外部验证器给GPT-4猜测出的颜色提供了可以被证实的正确答案,GPT-4确实会改进它的解决方案。
在这种情况下,经过「自我纠正」产生的提示词,确实可以提高输出结果的质量(上图的第3-5根柱状图 )
总结来看,就是对于「着色问题」任务,GPT-4独立的「自我纠正」反而会损害输出的性能,因为GPT-4没法验证答案是否正确。
但是如果能提供外部的正确验证过程,GPT-4生成的「自我纠正」确实能提升性能。
而另一篇论文,从规划任务的角度来研究了大语言模型「自我纠正」的能力,研究结果也和上一篇论文类似。
而且,研究人员发现,真正能提高输出准确性的不是LLM的「自我纠正」,而是外部独立验证器的反馈。
归根结底,还是在于LLM没有办法进行独立的验证,必须依赖外部的验证器给出的「正确答案」,才能有效地进行「自我纠正」。
「着色问题」表现不佳,LLM无法独立验证正确答案
研究设计框架
「着色问题」是非常经典的推理问题,即使难度不大,答案也足够多样性,而且答案的正确性很容易进行验证。
多样性的结果使得LLM的训练数据很难覆盖全,尽量避免了LLM的训练数据被污染的可能。
这些原因使得「着色问题」很适合用来研究LLM的推理能力,也很方便用来研究LLM在推理中「自我纠正」的能力。
研究人员构建了自己的数据集,使用GrinPy2来处理常见的图操作。每个图都是使用Erdos-Rényi方法( ˝p =0.4)构造的。
一旦找到正确的答案,它就会被编译成标准的DIMACS格式,并附加上一个包含其预计算的色数(chromatic number)的注释。
对于接下来的实验,研究人员生成了100个实例,每个实例平均有24条边,分布在从10到17的节点数范围内——这一分布是因为经验显示,它是一个表现足够多变的范围。
研究人员使用的图例如下图1所示,这个流程包括LLM的第一次回复、该回复的返回提示(backprompt)以及最终正确的图色方案。
迭代返回提示(Iterative Backprompting)的架构
提示生成器(Prompt Generator):
这个提示词生成器会选取一个DIMACS实例,并将每条边翻译成一个句子,然后将整体包裹在一组通用指令中,从而构造出一个自然语言提示词。
研究人员有意缩小不同实例提示之间的差异,以减少研究人员向LLM泄露的问题特定信息。各种类型提示的示例可以在附录中找到。
大型语言模型:
通过OpenAI API来调用GPT-4,这是当前最先进的模型。
研究人员提供一个系统角色:「你是一个解决各种CSP(约束满足问题)的约束满足求解器」。
返回提示词生成(Backprompt Generation)
在验证模式下,LLM收到一种不同类型的提示。
除了标准指令外,它只包含图的描述和建议的着色方案。它的任务是验证正确性、最优性以及每个顶点是否都已经被涂上了一个颜色。
如果生成的回复中有一组边是矛盾的,那着色方案就是错误的。
为了比较每个点,研究人员还构建了一个能够列出每一条矛盾边的验证器。
由于LLM的响应也是自然语言形式的,研究人员首先将它们翻译成便于分析的格式。为了使这个过程更加一致,研究人员设计了最初的提示,以描述一个模型需要遵循的精确输出格式。然后,该响应会被评估其正确性。
为了判断LLM验证结果,研究人员会检查它们在找出建议的着色方案中的错误方面表现如何。
直观地说,这些应该很容易识别:如果组成一个边的两个顶点共享一个颜色,立即返回该边。从算法角度看,只需要检测所有的边并比较每个顶点的颜色与其连接点的颜色即可。
验证
为了更深入了解LLM的验证能力,研究人员研究了它们在找出提出的着色方案中的错误方面的表现。
直观来说,这些错误应该很容易识别:如果组成一个边的两个顶点共享一个颜色,则立即返回该边。从算法角度来看,所有需要做的就是遍历所有边,并将每个顶点的颜色与其对应顶点的颜色进行比较。
研究人员使用相同的分析流程,但构建了一个研究人员称为color_verification的新域。LLM被引导去检查着色的正确性、最优性以及是否每个顶点都已经被赋予了一个颜色。
如果着色是不正确的,它被指示列出着色中的错误,即如果两个连接的节点共享一种颜色,就返回该边以表示该错误。没有给出返回提示(backprompts)。
研究人员使用之前相同的图实例,但生成了四种用于测试模型的着色方案:
正确(Correct):通过迭代的、随机的贪婪算法生成的没有错误的最优着色方案(使用预先计算的色数以确保最优性)。
缺失(Ablated):将先前一组着色方案中的一个随机节点改变为其邻居的颜色。
非最优(Non-optimal):在正确的集合中,随机选择一个颜色部分重新着色为一个新的色调。
随机(Random):完全随机分配的颜色,不同颜色的数量等于图的色数。
LLM:从先前实验中LLM生成的输出中随机选取的着色方案。
结论
对LLM进行提示、评估答案,并在没有任何返回提示(backprompts)的情况下就会进入下一个实例,得到的基线分数为16%。
当研究人员运行相同的实例,但这次使用由相同的语言模型充当验证者生成的反馈进行返回提示时,性能急剧下降——100个实例中只有一个得到了正确的回答。
与外部合格的验证器进行返回提示的结果起初看似更有效果。
正确回答的实例数量接近40%,但如果这意味着GPT-4在听取、改进,并根据反馈进行推理,那么研究人员期望更准确的返回提示会带来更好的结果。
然而,在这个域中,原始分数(见上图2)并没有证明这一点。
LLM的验证能力
研究人员测试了GPT-4在相同实例上验证图着色方案的能力,为每种实例生成了五种不同类型的着色方案。
明显的结果是,与上面的LLM自我纠正结果完全一致:模型几乎不愿将任何答案标记为正确。在100个最优着色方案中,它只同意其中2个是正确的。
整个500个着色方案的集合,其中118个是正确的,它只声称其中30个是正确的。在这30个中,其实只有5次是正确的。
总体而言,这一模式保持不变。在不到10%的案例中,LLM给出了「正确」、「非最优」或「缺少赋值」的反应。在这些情况中,行为看似有些随机。
在大约四分之一的实例中,它用「这是不正确的」验证作出回应,而解释与现实相符,而且它只通过指明不超过一个边来实现这一点,从而最小化了错误陈述某事的机会。
结果如上表2所示。请注意,当域的错误率增加时,幻觉比例下降。也就是说,当有更多的不正确的边时,模型更有可能指出其中出错的情况。
LLM自我批评,性能不增反减
在12日提交的论文中,作者同样得出了与上面一致的结论。
无论是规划,还是简单的算术或逻辑,当前最先进的大模型GPT-4也无法完全胜任。
许多研究人员对其进行了许多的探索和改进,其中就包括让LLM学会自我迭代、自我验证等策略来提升性能。
由此,业界人们乐观地认为,大模型还有救!
然而,经典意义上的推理任务复杂性与大模型无关,因为LLM是采用近似检索而非精确推理的模型。
在12日提交arXiv的论文中,ASU研者系统地评估和分析LLM在规划任务中的自我批评,以及迭代优化的能力。
研究中,作者提出了一个包含生成器LLM和验证器LLM的规划系统。
其中,GPT-4生成器负责生成候选计划,GPT-4验证器负责验证计划的正确性并提供反馈。
然后,研究人员在Blocksworld规划领域上进行了实验,并对以下方面进行了实证评估:
- 自我批评对整个LLM LLM系统的计划生成性能的影响
- 验证器LLM相对于地面真值验证的性能;
- 在批评LLM生成时,同反馈级别对整体系统性能的影响。
结果表明,与使用外部可靠的验证器相比,自我批评会降低LLM规划生成性能。
性能下降可以直接归因于验证器LLM的糟糕结果,验证器LLM产生了大量的假阳性,这可能严重损害系统的可靠性。
验证器LLM的二元分类准确率仅为61%,存在大量的假阳性(将错误规划判断为正确)。
另外,根据反馈的详细程度对比,发现其对规划生成性能影响不大。
总的来说,这项研究的系统调查提供了初步证据,对于LLM作为迭代、自我批评框架内规划任务验证者的有效性提出质疑。
作者介绍
Subbarao Kambhampati
Subbarao Kambhampati是亚利桑那州立大学计算机科学教授。Kambhampati研究规划和决策中的基本问题,特别是受人类感知人工智能系统挑战的推动。
岐黄问道大模型发布 年轻人养生的第一个大模型
近日,国内医疗大模型“岐黄问道大模型”发布,该模型以中医为核心,旨在实现临床诊疗和养生调理的智能化。该模型具有三个子模型:基于已确诊疾病的临床诊疗大模型、基于症状和体征的临床诊疗大模型以及中医养生调理大模型。其中,中医养生调理大模型可以根据输入的症状和体征信息,给出多维度的养生方案,包括中药、经络穴位、食疗等。该模型的训练过程也在发布会上公开展示,采用四层递进的训练方式。站长网2023-08-01 14:03:370000英伟达推出”生成式AI专业认证“,帮你成为大模型开发专家!
3月8日,全球AI领导者英伟达(NVIDIA)在官网推出了,生成式AI(AIGC)专业认证,通过考试可获得行业认可的权威证书。同时英伟达也推出了相应的培训课程,包括生成式AI解释,深度学习入门/基础知识,基于Transformer的自然语言处理,使用大语言模型进行定制应用开发,大语言模型的部署、定制、微调等,帮助学员顺利通过考试。站长网2024-03-08 13:36:370000疯狂的弹幕游戏:主播日流水破150万,开发商月赚百万
“同样是以羊为主题的游戏,但是这个游戏比之前火了的《羊了个羊》玩起来更加得劲,其中的对抗玩法,能让众多用户参与的同时,还能刷礼物,比之前的聊天直播赚的更多了”,一位抖音直播间的主播告诉Tech星球。0000日本 METI 将建造新型超级计算机以帮助国内人工智能发展
据日经新闻获悉,日本经济产业省(METI)将通过其附属实验室推出新型尖端超级计算机,以支持日本生成人工智能(AI)的发展。日本产业技术综合研究所(AIST)最早将于2024年开发出一台计算能力约为现有机器2.5倍的超级计算机。在经济产业省的监督下,该研究机构将通过云服务向国内开发生成式人工智能的公司提供该计算机。站长网2023-07-25 16:18:390002微软发布Windows 11 23H2更新 AI助手Copilot上线
微软于10月31日发布了Windows11的新功能更新程序“Windows112023Update”(版本23H2)。该更新包含了150多个新功能,包括AI助手“CopilotinWindows”等在内。站长网2023-11-01 09:11:430000