思维链被推翻!纽约大学新研究:大模型推理步骤或可省略
站长网2024-05-15 11:19:031阅
纽约大学的最新研究对当前流行的思维链(Chain-of-Thought,CoT)技术提出了挑战,该技术原本被认为能够提升大模型的推理能力。研究显示,使用省略号代替具体的推理步骤,模型的推理结果并没有显著差异,这意味着增加计算量而非推理步骤本身可能是提升性能的关键。
论文地址:https://arxiv.org/pdf/2404.15758
研究要点
省略号代替推理步骤:研究发现,将思维链推理中的具体步骤替换为省略号(...),模型的推理结果与完整步骤的推理结果相差无几。
性能提升来源:实验结果表明,所谓的性能提升可能只是因为大模型获得了更多的计算资源(token数量),而非真正的推理步骤。
隐藏推理:该发现还引发了关于模型可能在不可见的情况下进行隐藏推理的讨论,这在一定程度上脱离了人类的控制。
实验设计
3SUM问题:设计了一个难度较高的3SUM问题,要求模型在序列中挑选满足条件的3个数,实验中使用了填充token的方法,并与CoT解决方案进行对比。
2SUM-Transform任务:第二个任务是2SUM-Transform,通过将输入数字进行随机偏移,防止模型直接计算,实验结果显示填充token的方法精度接近CoT。
研究结论
填充token的有效性:研究表明,使用重复的省略号作为填充token可以达到与CoT相似的效果。
局限性:尽管填充token方法有效,但它并没有突破Transformer的计算复杂度上限,且需要特定的训练过程。
这项研究为AI领域带来了新的视角,提示我们在设计和使用大型语言模型时,需要更深入地理解其工作原理和性能提升的真正来源。同时,也引发了关于AI安全性和未来发展的进一步思考。
0001
评论列表
共(0)条相关推荐
中国移动:正建设面向通用智能的“人工智能大平台”
在今天举行的中国移动技术创新论坛上,中国移动研究院院长黄宇红透露,中国移动正在建设一个面向通用智能的“人工智能大平台”。该平台被定位为新型的人工智能基础设施,旨在承载面向国民经济主体的通用智能大模型和行业大模型等。该平台将基于广泛存在的算网基础设施,实现对数据的高质量利用。站长网2023-06-28 18:39:530000西班牙成立欧洲AI监管机构
文章概要:1.西班牙人工智能监管局(AESIA)的成立旨在发展“包容、可持续和以公民为中心”的AI。2.欧盟议会6月中旬批准了人工智能法案草案。3.AESIA将监管算法应用、数据使用以及确保AI系统遵守道德规范。近日,西班牙政府宣布成立了欧洲首个人工智能监管机构——西班牙人工智能监管局(AESIA)。站长网2023-08-26 16:12:080000研究发现:人工智能的应用让乳腺癌的检出率提高了20%
根据一项在瑞典进行的研究结果显示,与传统的放射科医生筛查相比,人工智能能够准确地从乳房X光片中检测出更多的乳腺癌,提高了20%的检测率。这项研究是第一个探讨人工智能在乳腺癌筛查中的应用的随机对照试验。站长网2023-08-02 15:07:010000小红书本地生活潜力巨大,但也要先过「低价」这个坎|服务商对话No.15
用户一定不需要另外一个大众点评,但用户需要另外一个平台能买到性价比高的产品。小红书的本地生活业务在如火如荼推进中,广州、上海等地已有团餐上线,其中不乏小红书特色的茶饮、咖啡类团购商品。享库存是小红书本地生活合作的第一个服务商。享库存2019年成立,起初是一个以小程序形式存在于微信私域的爆款抢购平台。站长网2023-05-25 17:07:370006华为P70系列相机规格大升级:标配长焦潜望镜 首发玻塑混合镜头
快科技12月3日消息,近日,天风国际证券分析师郭明錤发文爆料称,华为新款P70系列将持续带动2024年高端手机相机规格升级。预计,华为将在2024年上半年推出新款旗舰P70系列,包括P70、P70Pro、P70Art三款机型。他表示,P70系列的相机规格最大卖点如下:1、采用长焦潜望镜,P70为5P镜头(1/3.6英寸),P70Pro与P70Art均为6P镜头(1/2.5英寸)。0000