LeCun发文质疑LLM推理能力 大模型涌现离不开上下文学习
站长网2023-11-24 18:05:530阅
要点:
LeCun认为,大语言模型(LLM)缺乏规划推理能力,其涌现能力主要源自上下文学习而非真正的推理。
研究表明,针对复杂规划任务,如国际规划大赛中的问题,LLM的性能较差,其推理能力在特定领域受限,而涌现能力主要体现在简单任务和事先知道答案的情境中。
论文指出对LLM的规划任务研究存在问题,包括对计划知识和实际执行计划的混淆,以及对任务领域知识的需求,最终得出LLM缺乏自主规划和真正推理的结论。
近期,LeCun在推特上引发了关于大语言模型(LLM)推理能力的讨论,强调LLM缺乏真正的规划推理能力,其涌现能力实际上是上下文学习的结果。研究通过多个实验验证LLM在复杂规划任务上表现不佳,强调其能力受限于任务复杂度。
研究团队在GPT-4上进行的实验显示,在国际规划竞赛中,LLM的自主生成可执行计划的成功率相当有限。对于声称展示了LLM规划能力的论文,文章指出其往往混淆了从LLM中提取的计划知识和实际可执行计划,最终认为LLM缺乏真正的规划和推理能力。
文章还提到,对于LLM的规划任务研究存在一些问题,包括领域知识和实际执行计划的混淆。研究团队通过混淆规划问题中的动作和对象的名称来降低近似检索的有效性,挑战LLM的经验表现。
尽管进行了微调和不断提示的尝试,但改进LLM的规划能力仍然困难,且可能只是将规划任务转化为基于内存的检索。最终,文章总结认为,LLM的涌现能力主要体现在任务简单且问题已知的情境中,而在复杂规划任务和推理方面存在局限。
这一讨论对于理解大语言模型的真实能力,特别是在推理和规划领域,提供了重要的见解。随着对LLM的研究的不断深入,对其真实能力的理解也在逐渐清晰,为未来自然语言处理研究方向提供了有价值的参考。
0000
评论列表
共(0)条相关推荐
这个“五一”,200元一次的高校游火了
“这是学校的情人坡,不过在这玩儿的不少都是‘单身狗’,情人反而比较少。之前还有人在这拍婚纱照,不少学长学姐毕业后也会带着恋人来逛一逛。”大学生阿晴骑着小电驴对坐后座的女生介绍道,随后还贴心询问:“你想拍照吗?我帮你拍!”看似是阿晴带着同学或者朋友游玩校园,只有阿晴自己知道,她正做着“校园导游”的小生意。比起专业导游,阿晴的服务范围只限在学校及周边,一趟2—3小时的校园之旅,就能赚到100元。站长网2023-05-06 14:01:510000高通骁龙8 Gen4曝光:跑分超苹果M2 小米15系列等将搭载
近日,媒体报道称高通骁龙8Gen4工程样品正在测试中,预计将在今年10月份正式推出。作为安卓阵营的顶级芯片,骁龙8Gen4备受期待。据爆料,骁龙8Gen4采用了高通定制的Oryon内核,放弃了Arm的公版架构方案。这一创新使得芯片性能更加强劲,同时功耗更低。此外,骁龙8Gen4还集成了Adreno830GPU,为图形处理提供了强大的支持。站长网2024-01-22 17:45:210000绝无系统广告 不和小米、华为竞争!蔚来手机9月21日发布
快科技9月5日消息,第二届蔚来商业资源合作伙伴大会”于9月4日在巢湖之滨的合肥洲际酒店举行。据网友@一鸣0272”分享,蔚来联合创始人、总裁秦力洪表示,蔚来计划于9月15日发布新款EC6车型,并很快交付。此外,蔚来还计划在今年9月21日发布大家期待已久的手机产品NIOPhone。据称,西安NIODay时间暂定12月23日。站长网2023-09-05 10:22:290000元宇宙文旅不飘,厦门鼓浪屿在狂飙
中国移动咪咕全面助攻之下,厦门构建起了文旅行业高速增长的数智飞轮。“一亿人在贵州,十亿人在路上”。这个夏天,比天气更热烈的,是一浪爆过一浪的地方特色旅游:贵州的村超让球迷们一饱眼福,淄博的烧烤让吃货们一饱口福,石家庄的摇滚让音乐迷们一饱耳福。以上三张文旅名片的火爆,有其共性——那就是旧酒装新瓶。站长网2023-08-08 11:39:410000选好出海目的地,开发者就成功了一半
来自中国的移动应用,正在全球新兴市场“攻城略地”。随着智能手机的兴起和移动通信网络的发展,移动应用已经成为全球用户必不可少的生活娱乐工具。尤其在新兴市场,这种表现更为明显。而近年来,随着国内移动应用的用户增量明显放缓,中国企业开发的移动应用也加快了出海步伐,这其中不乏Temu、《GarenaFreeFire》等优秀移动应用成为海外市场的KILLERAPP(杀手级应用)。站长网2023-11-14 17:53:110000