思维链被推翻！纽约大学新研究：大模型推理步骤或可省略

站长网2024-05-15 11:19:031阅

纽约大学的最新研究对当前流行的思维链（Chain-of-Thought，CoT）技术提出了挑战，该技术原本被认为能够提升大模型的推理能力。研究显示，使用省略号代替具体的推理步骤，模型的推理结果并没有显著差异，这意味着增加计算量而非推理步骤本身可能是提升性能的关键。

论文地址:https://arxiv.org/pdf/2404.15758

研究要点

省略号代替推理步骤:研究发现，将思维链推理中的具体步骤替换为省略号（...），模型的推理结果与完整步骤的推理结果相差无几。

性能提升来源:实验结果表明，所谓的性能提升可能只是因为大模型获得了更多的计算资源（token数量），而非真正的推理步骤。

隐藏推理:该发现还引发了关于模型可能在不可见的情况下进行隐藏推理的讨论，这在一定程度上脱离了人类的控制。

实验设计

3SUM问题:设计了一个难度较高的3SUM问题，要求模型在序列中挑选满足条件的3个数，实验中使用了填充token的方法，并与CoT解决方案进行对比。

2SUM-Transform任务:第二个任务是2SUM-Transform，通过将输入数字进行随机偏移，防止模型直接计算，实验结果显示填充token的方法精度接近CoT。

研究结论

填充token的有效性:研究表明，使用重复的省略号作为填充token可以达到与CoT相似的效果。

局限性:尽管填充token方法有效，但它并没有突破Transformer的计算复杂度上限，且需要特定的训练过程。

这项研究为AI领域带来了新的视角，提示我们在设计和使用大型语言模型时，需要更深入地理解其工作原理和性能提升的真正来源。同时，也引发了关于AI安全性和未来发展的进一步思考。

思维链被推翻纽约大学新研究大模型推理步骤或可省略

0001

评论列表

共(0)条

相关推荐

苹果2025年AI战略曝光：重建Siri核心技术
快科技1月25日消息，近日，根据彭博社记者马克古尔曼称，一份苹果公司的内部备忘录被泄露，揭示了这家科技巨头在人工智能领域的未来规划。备忘录显示，苹果AI负责人JohnGiannandrea强调，2025年AI团队的工作重点是改进Siri的底层基础设施，这表明苹果正着手重建其语音助手Siri的核心技术，为未来更强大的功能和更流畅的用户体验打下基础。
站长网站长资讯2025-01-25 10:38:45
0000
站长资讯
OpenAI神秘模型，再次被Sam Altman提及
5月6日，OpenAI首席执行官SamAltman在社交平台分享了一条推文“我是一个优秀的GPT-2聊天机器人”。而在4月30日，Altman就提起过该模型非常喜欢GPT-2。按道理说一个只有15亿参数在2019年发布的开源模型，被反复提及两次就很不寻常。更意外的是GPT-2曾短暂上榜LMSYS的聊天机器人竞技场性能媲美GPT-4、ClaudeOpus等模型。
站长网2024-05-06 10:54:56
0001
站长资讯
做AI捏捏，享赛博解压。
我最近的短视频平台，就是一个巨大的赛博解压聚集地。光是这两天，我一打开小红书和抖音，就又双叒叕看到了一堆AI捏捏视频。不只是AI类的账号，各种穿搭博主、宠物博主、美食博主，也都全都在玩儿AI捏捏。。。这是彻底破圈了。外网也没有放过，连海外的instagram上也全都是，标题清一色的带上了“火爆全网”的描述。我完全就被这个AI捏捏的特效包围。
站长网2024-10-29 14:08:33
0000
站长资讯
AI日报：OpenAI发布GPT-4o mini；腾讯华为联合推AI换衣技术IMAGDressing-v1；豆包浏览器插件上线播客和视频总结功能
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、OpenAI发布GPT-4omini，API降价60%！
站长网2024-07-20 00:50:44
0001
站长资讯
PALP：基于提示对齐的个性化文本到图像生成方法
站长网2024-01-17 12:14:49
0000