思维链被推翻!纽约大学新研究:大模型推理步骤或可省略
站长网2024-05-15 11:19:031阅
纽约大学的最新研究对当前流行的思维链(Chain-of-Thought,CoT)技术提出了挑战,该技术原本被认为能够提升大模型的推理能力。研究显示,使用省略号代替具体的推理步骤,模型的推理结果并没有显著差异,这意味着增加计算量而非推理步骤本身可能是提升性能的关键。

论文地址:https://arxiv.org/pdf/2404.15758
研究要点
省略号代替推理步骤:研究发现,将思维链推理中的具体步骤替换为省略号(...),模型的推理结果与完整步骤的推理结果相差无几。
性能提升来源:实验结果表明,所谓的性能提升可能只是因为大模型获得了更多的计算资源(token数量),而非真正的推理步骤。
隐藏推理:该发现还引发了关于模型可能在不可见的情况下进行隐藏推理的讨论,这在一定程度上脱离了人类的控制。
实验设计
3SUM问题:设计了一个难度较高的3SUM问题,要求模型在序列中挑选满足条件的3个数,实验中使用了填充token的方法,并与CoT解决方案进行对比。
2SUM-Transform任务:第二个任务是2SUM-Transform,通过将输入数字进行随机偏移,防止模型直接计算,实验结果显示填充token的方法精度接近CoT。
研究结论
填充token的有效性:研究表明,使用重复的省略号作为填充token可以达到与CoT相似的效果。
局限性:尽管填充token方法有效,但它并没有突破Transformer的计算复杂度上限,且需要特定的训练过程。
这项研究为AI领域带来了新的视角,提示我们在设计和使用大型语言模型时,需要更深入地理解其工作原理和性能提升的真正来源。同时,也引发了关于AI安全性和未来发展的进一步思考。
0001
评论列表
共(0)条相关推荐
这么多AI大模型,就没一个能算清今年这破调休的?
虽然我人还在泰国跟红衣大叔周鸿祎在靶场开心的射击。但是也知道昨天(8月27日)的一条微博热搜爆了。这一大串看着“像代码”的文字,乍看莫名其妙,其实这说的是今年中秋节和国庆节的放假调休安排。。。嗯,特酿的今年的中秋和国庆放假安排,从9月9日开始,先是上6休3(中秋节),再是上3休2,接着上5休1,然后上2休7(国庆节),最后上5休1,接连5周调休。站长网2024-08-28 23:34:510001ChatGPT、Claude等聚合平台Poe,获7500万美元融资
1月11日,生成式AI聊天助手聚合平台Poe,获得7500万美元(约5.3亿美元),估值5亿美元(约35.8亿元)。本次由AndreessenHorowitz、a16z等投资。0000谷歌AI搜索功能在地理知识方面表现糟糕
本文概要:1.谷歌的人工智能搜索在地理知识方面存在严重问题。2.谷歌的人工智能搜索无法正确回答关于以字母开头的国家的问题。3.谷歌承认人工智能搜索仍处于实验阶段,并表示将继续改进和优化。谷歌的人工智能搜索功能(“SGE”搜索)在地理知识方面存在着严重问题。有用户发现谷歌的搜索人工智能无法正确回答关于以字母开头的国家的问题,甚至给出了错误的答案。站长网2023-08-17 10:59:140003苹果与谷歌起草追踪设备行业规范 三星等厂商宣布支持
凤凰网科技讯(作者/贾楠)5月3日消息,苹果与谷歌于当地时间5月2日联合提交了一份行业规范草案,以帮助应对蓝牙定位追踪设备遭滥用的问题。目前已有包括三星在内的追踪设备制造厂商宣布支持该草案。站长网2023-05-03 09:07:100000