逻辑推理大翻车！GPT-4、Gemini被曝重大缺陷，LLM严重降智

站长网2024-02-26 14:36:000阅

要点:

1. 大模型逻辑推理表现受前提顺序影响，打乱顺序可导致性能下降30%。

2. 改变前提叙述顺序对大模型推理表现有重大影响，Gemini Pro、GPT-3.5-Turbo表现下降。

3. 逻辑推理中改变前提顺序让LLM性能大幅下降，需要进一步研究解决。

近期，谷歌DeepMind和斯坦福的研究人员发现大型语言模型在处理逻辑推理任务时，前提信息的呈现顺序对其表现具有决定性影响。

在逻辑推理和数学问题中，前提按照逻辑自然顺序排列时，模型表现更佳。对于大型语言模型，改变前提叙述顺序会导致性能大幅下降，尤其是在添加分散注意力规则的情况下。

论文地址:https://arxiv.org/pdf/2402.08939.pdf

研究人员发现，通过打乱GSM8K测试集中问题陈述的顺序构建R-GSM测试集，几乎所有主流LLM在新测试集上表现下降。尽管人类在逻辑推理时对前提顺序也有偏好，但LLM更容易受到顺序效应影响，这可能与自回归模型训练目标和数据偏差有关。

改变前提顺序可以使模型准确率下降超过30%，不同顺序对不同模型影响也不同，如GPT模型在反向排序下表现较好。研究人员还发现加入更多干扰规则和多种前提顺序会使问题更加复杂，需要进一步研究解决。在逻辑推理中，前提顺序对大型语言模型推理表现有重大影响，如何应对这一问题仍是一个挑战。

逻辑推理大翻车GPT4 Gemini被曝重大缺陷LLM严重降智

0000

评论列表

共(0)条

相关推荐

站长资讯
商拍换装平台Jay创作提供一站式AI商拍解决方案
Jay创作是一款专为电商卖家打造的AI商拍工具，以AI模特为核心，提供一站式AI商拍解决方案，旨在帮助电商卖家克服传统商拍成本高、效率低的问题。使用Jay创作，用户可以一键拍出服装模特图，无需实际模特，适合各地市场。同时，也可以切换商品场景，拍摄商业级摄影效果。批量商品背景去除，精准识别商品主体和边缘细节等。
站长网2023-10-25 19:36:35
0000
站长资讯
用AI技术检测网络安全，Cowbell Cyber再融资2500万美元
划重点:📌CowbellCyber募得2500万美元的投资📌石油巨头AramcoVentures参与投资📌CowbellCyber通过人工智能和机器学习来监测客户的网络安全，降低勒索软件赎金支付的金额
站长网2023-11-02 10:29:08
0000
站长资讯
垂直内容时代，如何做好全网运营？
中文互联网正在进入全新的内容时代。在过去的十一个月里，AIGC狂飙突进，刷新了我们对于人类科技的认知。尽管“取代”人类创作者仍需要很长的时间，但AI已经创造出了大量的非专业化内容，并将触手伸向专业领域，内容生产力解放的同时，它也正在快速改写着内容生产的前端逻辑:低质内容将被AIGC取代，人类的创作必须深入垂直领域。
站长网2023-12-01 09:13:21
0001
站长资讯
微软推ZeRO++新系统：减少大模型训练时间和成本
微软研究人员推出了名为ZeRO的新系统，用于优化训练大型AI模型，以应对高数据传输开销和有限带宽的难题。ZeRO建立在现有的ZeRO优化的基础上，并提供增强的通信策略，以提高训练效率，减少训练时间和成本。
站长网2023-06-27 16:04:00
0000
站长资讯
独立开发变现周刊（第121期）：发布个人服务的SaaS产品，年收入160万美元
分享独立开发、产品变现相关内容，每周五发布（合集:ezindie.com）目录1、stagetimer:一个远程控制的倒计时的计时器2、invideoAI:立即将任何内容或想法变成视频3、userdesk:你网站线索收集AI小助手4、copyui:Tailwindcss组件使用更简单5、发布个人服务的SaaS产品，年收入160万美元
站长网2024-01-26 16:11:53
0000