逻辑推理大翻车!GPT-4、Gemini被曝重大缺陷,LLM严重降智
站长网2024-02-26 14:36:000阅
要点:
1. 大模型逻辑推理表现受前提顺序影响,打乱顺序可导致性能下降30%。
2. 改变前提叙述顺序对大模型推理表现有重大影响,Gemini Pro、GPT-3.5-Turbo表现下降。
3. 逻辑推理中改变前提顺序让LLM性能大幅下降,需要进一步研究解决。
近期,谷歌DeepMind和斯坦福的研究人员发现大型语言模型在处理逻辑推理任务时,前提信息的呈现顺序对其表现具有决定性影响。
在逻辑推理和数学问题中,前提按照逻辑自然顺序排列时,模型表现更佳。对于大型语言模型,改变前提叙述顺序会导致性能大幅下降,尤其是在添加分散注意力规则的情况下。
论文地址:https://arxiv.org/pdf/2402.08939.pdf
研究人员发现,通过打乱GSM8K测试集中问题陈述的顺序构建R-GSM测试集,几乎所有主流LLM在新测试集上表现下降。尽管人类在逻辑推理时对前提顺序也有偏好,但LLM更容易受到顺序效应影响,这可能与自回归模型训练目标和数据偏差有关。
改变前提顺序可以使模型准确率下降超过30%,不同顺序对不同模型影响也不同,如GPT模型在反向排序下表现较好。研究人员还发现加入更多干扰规则和多种前提顺序会使问题更加复杂,需要进一步研究解决。在逻辑推理中,前提顺序对大型语言模型推理表现有重大影响,如何应对这一问题仍是一个挑战。
0000
评论列表
共(0)条相关推荐
英伟达在人工智能技术领域的领导地位和近乎垄断的地位「令人震惊」
站长之家(ChinaZ.com)8月10日消息:英伟达日前展示了其新的人工智能处理器芯片GH200,并推出了AIWorkbench功能,供客户开发自己的大型语言模型。截至2023年,英伟达股价今年已上涨超过200%。站长网2023-08-10 09:59:220000滴滴宣布“盲人无障碍出行服务”在全国上线
滴滴宣布“盲人无障碍出行服务”全国上线。据介绍,“盲人无障碍出行服务”为盲人用户提供“优先叫车”;聚焦“找不到车”的难点,通过语音播报和短信等形式提醒司机师傅主动联系和寻找盲人乘客,并在上下车等环节提供必要的帮助。同时,也为完成服务的司机点亮“无障碍勋章”。站长网2023-07-25 17:18:250000AI日报:“毒舌AI”每小时赚近4千美元;Flux生成网红因太逼真爆火;国产机器人“天工”升级;Grok 2 大模型测试版将发布
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、太疯狂!“毒舌AI”TwitterPersonality每小时赚近4千美元、达500万用户站长网2024-08-13 11:17:140001东方甄选升级保价机制 自营产品食品类保价7天
1月8日,东方甄选公告宣布,为了持续提升客户的购物体验,他们决定升级保价机制。从即日起,所有自营产品的保价期限设定如下:食品类为7天,非食品类为30天。而对于第三方店铺的商品(但生鲜水果除外),其保价期限则为:食品类7天,非食品类15天。这一调整旨在确保客户的购物权益,提供更稳定的价格保障。以下为公告全文:各位客户朋友,大家好!站长网2024-01-08 16:04:210000RTX 4090国内下架 英伟达不卖单卡后:国外也开始涨价!
快科技11月18日消息,据英伟达官网显示,他们已将RTX4090系列显卡的产品信息,从简体中文官网移除。随后,国外零售平台开始出现了RTX4090涨价的事情,从零售商的具体价格来看,新蛋最便宜的型号是RTX4090TrinityOC,售价为1899美元。站长网2023-11-18 10:57:270000