LeCun发文质疑LLM推理能力 大模型涌现离不开上下文学习
站长网2023-11-24 18:05:530阅
要点:
LeCun认为,大语言模型(LLM)缺乏规划推理能力,其涌现能力主要源自上下文学习而非真正的推理。
研究表明,针对复杂规划任务,如国际规划大赛中的问题,LLM的性能较差,其推理能力在特定领域受限,而涌现能力主要体现在简单任务和事先知道答案的情境中。
论文指出对LLM的规划任务研究存在问题,包括对计划知识和实际执行计划的混淆,以及对任务领域知识的需求,最终得出LLM缺乏自主规划和真正推理的结论。
近期,LeCun在推特上引发了关于大语言模型(LLM)推理能力的讨论,强调LLM缺乏真正的规划推理能力,其涌现能力实际上是上下文学习的结果。研究通过多个实验验证LLM在复杂规划任务上表现不佳,强调其能力受限于任务复杂度。
研究团队在GPT-4上进行的实验显示,在国际规划竞赛中,LLM的自主生成可执行计划的成功率相当有限。对于声称展示了LLM规划能力的论文,文章指出其往往混淆了从LLM中提取的计划知识和实际可执行计划,最终认为LLM缺乏真正的规划和推理能力。

文章还提到,对于LLM的规划任务研究存在一些问题,包括领域知识和实际执行计划的混淆。研究团队通过混淆规划问题中的动作和对象的名称来降低近似检索的有效性,挑战LLM的经验表现。
尽管进行了微调和不断提示的尝试,但改进LLM的规划能力仍然困难,且可能只是将规划任务转化为基于内存的检索。最终,文章总结认为,LLM的涌现能力主要体现在任务简单且问题已知的情境中,而在复杂规划任务和推理方面存在局限。
这一讨论对于理解大语言模型的真实能力,特别是在推理和规划领域,提供了重要的见解。随着对LLM的研究的不断深入,对其真实能力的理解也在逐渐清晰,为未来自然语言处理研究方向提供了有价值的参考。
0000
评论列表
共(0)条相关推荐
OpenAI 与好莱坞接轨:Sora 文本到视频生成器引发行业热议
OpenAI近日传出消息,计划将其最新文本到视频生成器Sora推向好莱坞。据知情人士透露,下周该人工智能公司将在洛杉矶与多家工作室、人才机构和媒体高管进行会面,旨在探讨未来合作伙伴关系。此次会议的核心议题将集中在让更多电影制作人熟悉即将发布的Sora上。图源备注:图片由AI生成,图片授权服务商Midjourney站长网2024-03-23 17:12:030000智慧CRM服务供应商玄武云推出AIGC产品“业务员智慧助手”
近日,国内智慧CRM服务供应商玄武云对外表示,公司已发布首款AIGC应用产品“业务员智慧助手”。据悉,该应用将赋能SFA(销售能力自动化)产品模块,旨在提升业务员工作全流程智慧化,助力快消企业进一步降本增效,完善营销增长策略制定。站长网2023-07-19 12:29:500000FF推出法拉使命“Mission Farad”平台
昨日,FaradayFuture(FF)宣布推出“MissionFarad”平台(“法拉使命”)。该平台基于Web3.0技术打造,将充分联合开发者、创造者、用户和投资者,实现价值共创和收益共享。“法拉使命”将为FF用户带来更多创新体验和机会。它包括4个关键部分:开源的共创技术平台、共享的商业模式、合伙制的治理结构以及双赢的产品组合。站长网2023-05-23 08:37:470000Temu打响开年第一枪!“半托管”降生,变化何在?机会何在?
凭一己之力掀起跨境电商“全托管”之风的Temu,作为新锐平台中的“执牛耳者”,自成立以来,一举一动始终是行业关注的焦点。2024甫一开年,便有“Temu将在全托管之外开启一个新模式”的消息在跨境圈不胫而走,引得众多商家期待靴子赶紧落地。站长网2024-01-26 09:14:230000小米AI大模型MiLM通过备案 将应用于手机、汽车产品中
5月16日,小米公司宣布,小米大语言模型MiLM正式通过大模型备案,小米大模型将逐步应用于小米汽车、手机、智能家居等产品中。5月15日,北京市生成式人工智能服务新增已备案信息正式公布。此次19家企业新增备案,包括了北京小米科技有限责任公司“小米”、腾讯云计算(北京)有限责任公司“行业大模型”等名列其中。站长网2024-05-16 10:43:420000