思维链被推翻!纽约大学新研究:大模型推理步骤或可省略
站长网2024-05-15 11:19:031阅
纽约大学的最新研究对当前流行的思维链(Chain-of-Thought,CoT)技术提出了挑战,该技术原本被认为能够提升大模型的推理能力。研究显示,使用省略号代替具体的推理步骤,模型的推理结果并没有显著差异,这意味着增加计算量而非推理步骤本身可能是提升性能的关键。
论文地址:https://arxiv.org/pdf/2404.15758
研究要点
省略号代替推理步骤:研究发现,将思维链推理中的具体步骤替换为省略号(...),模型的推理结果与完整步骤的推理结果相差无几。
性能提升来源:实验结果表明,所谓的性能提升可能只是因为大模型获得了更多的计算资源(token数量),而非真正的推理步骤。
隐藏推理:该发现还引发了关于模型可能在不可见的情况下进行隐藏推理的讨论,这在一定程度上脱离了人类的控制。
实验设计
3SUM问题:设计了一个难度较高的3SUM问题,要求模型在序列中挑选满足条件的3个数,实验中使用了填充token的方法,并与CoT解决方案进行对比。
2SUM-Transform任务:第二个任务是2SUM-Transform,通过将输入数字进行随机偏移,防止模型直接计算,实验结果显示填充token的方法精度接近CoT。
研究结论
填充token的有效性:研究表明,使用重复的省略号作为填充token可以达到与CoT相似的效果。
局限性:尽管填充token方法有效,但它并没有突破Transformer的计算复杂度上限,且需要特定的训练过程。
这项研究为AI领域带来了新的视角,提示我们在设计和使用大型语言模型时,需要更深入地理解其工作原理和性能提升的真正来源。同时,也引发了关于AI安全性和未来发展的进一步思考。
0001
评论列表
共(0)条相关推荐
消失的共享汽车:车场变坟场,千亿泡沫破裂,汽车沦为公共厕所
当共享成为流行,开发共享模式的人们只有两个下场一是大捞特捞,二是血本无归。似乎带上了共享二字,就没有任何缓冲地带要么疯狂加足油,狂飙突进譬如在城市里占有重要地位的共享单车、共享充电宝。要么一路下坠,江河日下一发不可收拾而这一类的代表就是今天要说的重点——共享汽车。不知道各位的城市里有没有共享汽车呢?大概率有,甚至还用过一两次但是现在,它们就像幽灵一样消失在我们的生活。站长网2023-05-23 22:31:390000腾讯回应64亿北京海淀拿地:用于集中办公
1月24日消息,腾讯在2024年开年再次展现出其大手笔的拿地策略。据北京市规划和自然资源委员会官网公告,腾讯科技(北京)有限公司于1月23日以底价成功摘得海淀区学院路北端A、B、C、J地块,成交金额高达64.2亿元。站长网2024-01-24 10:19:320000多模态神经网络SALMONN 能够理解声音世界的AI模型
SALMONN是一个多模态神经网络,能够直接处理和理解包括语音、音频事件和音乐在内的一般音频输入,并在多种语音和音频任务上取得竞争性表现。论文地址:https://arxiv.org/pdf/2310.13289v1.pdfSALMONN采用了两个互补的音频编码器,一个用于处理语音,另一个用于处理非语音音频事件,以实现对各种音频任务的优越性能。站长网2023-10-25 12:56:350001百度2023年第二季度总营收达341亿元 同比增长15.2%
百度在2023年第二季度财报中公布了营收和各项业务的详细数据。总体来说,公司总营收达到了341亿元,同比增长15.2%。其中,归属于百度的净利润为52亿元,不按美国通用会计准则(Non-GAAP),归属于百度的净利润为77亿元。站长网2023-08-22 21:43:030000微软大语言模型Gorilla在编写 API 调用方面击败了 GPT-4
本文概要:1.微软研究人员开发的Gorilla是一种大语言模型,能够准确生成API调用。2.Gorilla通过减轻幻觉问题和适应文档更改,在测试中表现优于GPT-4等其他语言模型。3.Gorilla已在GitHub上提供代码、模型、数据和演示,并计划扩展到更多领域。站长网2023-08-11 11:12:400001