逻辑推理大翻车!GPT-4、Gemini被曝重大缺陷,LLM严重降智
站长网2024-02-26 14:36:000阅
要点:
1. 大模型逻辑推理表现受前提顺序影响,打乱顺序可导致性能下降30%。
2. 改变前提叙述顺序对大模型推理表现有重大影响,Gemini Pro、GPT-3.5-Turbo表现下降。
3. 逻辑推理中改变前提顺序让LLM性能大幅下降,需要进一步研究解决。
近期,谷歌DeepMind和斯坦福的研究人员发现大型语言模型在处理逻辑推理任务时,前提信息的呈现顺序对其表现具有决定性影响。
在逻辑推理和数学问题中,前提按照逻辑自然顺序排列时,模型表现更佳。对于大型语言模型,改变前提叙述顺序会导致性能大幅下降,尤其是在添加分散注意力规则的情况下。
论文地址:https://arxiv.org/pdf/2402.08939.pdf
研究人员发现,通过打乱GSM8K测试集中问题陈述的顺序构建R-GSM测试集,几乎所有主流LLM在新测试集上表现下降。尽管人类在逻辑推理时对前提顺序也有偏好,但LLM更容易受到顺序效应影响,这可能与自回归模型训练目标和数据偏差有关。
改变前提顺序可以使模型准确率下降超过30%,不同顺序对不同模型影响也不同,如GPT模型在反向排序下表现较好。研究人员还发现加入更多干扰规则和多种前提顺序会使问题更加复杂,需要进一步研究解决。在逻辑推理中,前提顺序对大型语言模型推理表现有重大影响,如何应对这一问题仍是一个挑战。
0000
评论列表
共(0)条相关推荐
腾讯讯云推出高性能应用服务HAI 10分钟即可创建AI应用
12月18日,腾讯云宣布推出高性能应用服务(HyperApplicationInventor,HAI),无需复杂配置,用户只需10分钟即可创建自己的AI应用。据介绍,HAI提供即插即用的算力和常见环境,可以帮助中小企业、开发者和个人用户快速部署语言模型、AI作画、数据科学等高性能应用。它原生集成了配套的开发工具和组件,大幅提高了应用的开发效率,同时也大幅降低了开发门槛。0000苹果CEO库克:将捐款支持甘肃地震灾区救援和重建工作
12月18日23时59分,甘肃省临夏回族自治州积石山县发生6.2级地震,震区发生人员伤亡,灾情牵动了全国人民的心。刚刚,苹果公司CEO库克在微博发文称,“甘肃地震及其引发的灾情令人痛心。在Apple,我们心系每一位受灾者,我们将捐款支持当地的救援和重建工作。”站长网2023-12-19 14:01:320000Hugging Face、GitHub 等联合呼吁欧盟AI立法中不该阻碍开源创新
由六家开源人工智能利益相关者组成的联盟——HuggingFace、GitHub、EleutherAI、CreativeCommons、LAION和OpenFuture——呼吁欧盟政策制定者在最终确定欧盟人工智能法案时保护开源创新,该法案将成为欧盟人工智能法案的最终版本,号称是世界上第一部全面的人工智能法。站长网2023-07-27 11:23:050000哈佛天体物理学家认为 UFO 可能是外星人工智能
划重点:🔍着名天文学家MartinRees最近提出,如果外星人存在,他们可能是人工智能计算机程序。🔍哈佛大学天体物理学家AviLoeb指出,旅行跨越数千光年的星际距离需要探测器具备自主性和独立的大脑,而人工智能可能是一种存活得更久的选择。🔍通过使用深度学习来检测具有异常特征的物体,哈佛的“伽利略计划”旨在寻找地球附近的UFO并研究其可能的外星起源。站长网2023-11-10 10:05:3400039.9买一套AI写真,秒鸭相机能火多久?
只要花9.9元就能有一套自己的数字分身和AI写真,这是最近比较火的一款图像类小程序——秒鸭相机。我在朋友圈、微信群中,都有看过一些朋友圈讨论、转发过这个产品,虽然火爆程度不如以前脸萌、ZAO等风靡一时。但作为图像类且收费的产品,还有这么多人愿意主动分享实属不易。01图像美化一直有机会我一直强调,围绕图像美化一直有机会,这其中包含图片、视频和音频。站长网2023-07-25 16:34:410000