19778

LeCun最新专访：为什么物理世界终将成为LLM的「死穴」？

站长网2024-03-11 18:10:392阅

在人工智能领域，很少有像 Yann LeCun 这样的学者，在65岁的年龄还能高度活跃于社交媒体。

一直以来，Yann LeCun 都是以「直言不讳的批评者」形象活跃于人工智能领域。他始终支持开源，并带领 Meta 的团队推出了占据如今开源大模型领域半壁江山的 Llama2;他对很多人深感恐慌的人工智能末日论不以为然，坚信 AGI 的到来一定是件好事……

近日，LeCun 又一次来到 Lex Fridman 的播客，展开了一场接近三个小时的对谈，内容涉及开源的重要性、LLM 的局限性、为什么人工智能末日论者是错误的，以及通向 AGI 的道路等话题。

观看页面:https://youtu.be/5t1vTLU7s40?feature=shared

我们从这场播客内容中精选了一些有参考价值的观点，以下是相关内容:

LLM 的局限性

Lex Fridman:你说过，自回归 LLM 并不是我们在超人类智能方面取得进展的方式。为什么它们不能带我们一路走下去?

Yann LeCun:出于多种原因。首先，智能行为有许多特征。例如，理解世界的能力、理解物理世界的能力、记忆和检索事物的能力、持久性记忆、推理能力和计划能力。这是智能系统或实体、人类、动物的四个基本特征。LLM 无法做到这些，或者只能以非常原始的方式做到这些，而且并不真正了解物理世界。LLM 并没有真正的持久记忆，无法真正推理，当然也无法计划。因此，如果你期望系统变得智能，但却无法做这些事情，那么你就犯了一个错误。这并不是说自回归 LLM 没有用。它们当然有用，但它们并不有趣，我们无法围绕它们构建整个应用程序生态系统。但作为迈向人类水平智能的通行证，它们缺少必要的组成部分。

通过感官输入，我们看到的信息比通过语言看到的信息多得多，尽管我们有直觉，但我们学到的大部分内容和知识都是通过我们的观察和与现实世界的互动，而不是通过通过语言。我们在生命最初几年学到的一切，当然还有动物学到的一切，都与语言无关。

Lex Fridman:也就是你所说的，LLM 缺乏对物理世界的理解?所以，直觉物理学、关于物理空间、关于物理现实的常识推理对你来说没有什么特别之处。这是 LLM 无法做到的巨大飞跃?

Yann LeCun:我们今天使用的 LLM 无法做到这一点，原因有很多，但最主要的原因是 LLM 的训练方式是:你获取一段文本，删除文本中的一些单词，屏蔽它们，用空白 token 代替它们，然后训练一个遗传神经网络来预测缺失的单词。如果你以一种特殊的方式构建这个神经网络，让它只能查看左侧的单词或它试图预测的单词，那么你所拥有的系统基本上就是试图预测文本中的下一个单词。因此，你可以给它输入一段文字、一个提示，然后让它预测下一个单词。它永远无法准确预测下一个单词。

因此，它要做的就是生成字典中所有可能单词的概率分布。事实上，它并不预测单词。它预测的是作为子单词单位的词块，因此很容易处理预测中的不确定性，因为字典中可能出现的单词数量有限，你只需计算它们的分布即可。然后，系统就会从该分布中选出一个词。当然，在该分布中，选取概率较高的词的几率会更高。因此，你从该分布中采样，实际产生一个单词，然后将该单词移入输入中，这样系统就不会预测第二个单词了。

这就是所谓的自回归预测，这也是为什么这些 LLM 应该被称为「自回归 LLMs」，但我们只是称其为 LLM。这种过程与在产生一个单词之前的过程是有区别的。

当你我交谈时，你我都是双语者，我们会思考我们要说什么，而这与我们要说的语言相对独立。当我们谈论一个数学概念时，我们所做的思考和我们打算给出的答案与我们是用法语、俄语还是英语来表达无关。

Lex Fridman:乔姆斯基翻了个白眼，但我明白，所以你是说有一个更大的抽象存在于语言之前并映射到语言?

Yann LeCun:对于我们所做的很多思考来说，是的。

Lex Fridman:你的幽默是抽象的吗?当你发推文时，你的推文有时有点辛辣，在推文映射到英语之前，你的大脑中是否有一个抽象的表示?

Yann LeCun:确实有一个抽象的表示来想象读者对该文本的反应。但是，想一个数学概念，或者想象一下你想用木头做一个什么东西，或者诸如此类的东西，这种思考与语言完全无关。你并不是在用某种特定的语言进行内心独白。你是在想象事物的心理模型。我的意思是，如果我让你想象一下，如果我把这个水瓶旋转90度，它会是什么样子，这与语言毫无关系。很显然，我们的大部分思考都是在更抽象的表征层面上进行的，如果输出的是语言，我们会计划好要说的话，而不是输出肌肉动作，我们会在做出答案之前就计划好答案。

LLM 不会这样做，只是本能地说出一个又一个单词。这有点像下意识的动作，有人来问你一个问题，你就会回答这个问题。没有时间思考答案，但答案很简单。所以你不需要注意，会自动做出反应。这就是 LLM 的工作。它真的不会思考答案。因为它已经积累了很多知识，所以能检索到一些东西，但也只会吐出一个又一个 token，而不会计划答案。

Lex Fridman:一个 token 一个 token 地生成必然是简单化的，但如果世界模型足够复杂，它最有可能生成的是一连串的 token，这将是一件深奥的事情。

Yann LeCun:但这基于一个假设:这些系统实际上拥有一个永恒的世界模型。

视频预测

Lex Fridman:所以真正的问题是…… 能否建立一个对世界有深刻理解的模型?

Yann LeCun:能否通过预测来构建它，答案很可能是肯定的。但能通过预测单词来构建它吗?答案很可能是否定的，因为语言在弱带宽或低带宽方面非常贫乏，没有足够的信息。因此，建立世界模型意味着要观察世界，了解世界为什么会以这样的方式演变，然后世界模型的额外组成部分就是能够预测你可能采取的行动会导致世界如何演变。

因此，一个真正的模型是:这是我对 T 时世界状态的想法，这是我可能采取的行动。在 T 1时间，预测的世界状态是什么?现在，世界的状态并不需要代表世界的一切，它只需要代表与这次行动规划相关的足够多的信息，但不一定是所有的细节。

现在，问题来了。生成模型无法做到这一点。因此，生成模型需要在视频上进行训练，我们已经尝试了10年，你拍摄一段视频，向系统展示一段视频，然后要求你预测视频的提醒，基本上就是预测将要发生什么。

如果你愿意，可以制作大型视频模型。这样做的想法由来已久，在 FAIR，我和我们的一些同事尝试这样做已有10年之久，但你无法真正做到与 LLM 相同的技巧，因为 LLM，正如我所说，你无法准确预测哪一个单词会跟随一连串单词，但你可以预测单词的分布。现在，如果你去看视频，你要做的就是预测视频中所有可能帧的分布，而我们并不知道如何正确地做到这一点。

我们不知道如何以有用的方式来表示高维连续空间上的分布。这就是主要问题所在，我们之所以能做到这一点，是因为这个世界比文字复杂得多，信息丰富得多。文本是离散的，而视频是高维的、连续的。这里面有很多细节。因此，如果我拍摄了这个房间的视频，视频中的摄像机在四处转动，我根本无法预测在我四处转动时房间里会出现的所有东西。系统也无法预测摄像机转动时房间里会出现什么。也许它能预测到这是一个房间，里面有一盏灯，有一面墙，诸如此类的东西。它无法预测墙壁上的画是什么样子，也无法预测沙发的纹理是什么样子。当然也无法预测地毯的质地。所以我无法预测所有这些细节。

因此，一种可能的处理方法，也是我们一直在研究的方法，就是建立一个拥有所谓潜在变量的模型。潜在变量被输入到神经网络中，它应该代表所有你还没有感知到的关于这个世界的信息，你需要增强系统的预测能力，才能很好地预测像素，包括地毯、沙发和墙上画作的细微纹理。

我们试过直接的神经网络，试过 GAN，试过 VAE，试过各种正则化自动编码器。我们还尝试用这些方法来学习图像或视频的良好表征，然后将其作为图像分类系统等的输入。基本上都失败了。

所有试图从损坏版本的图像或视频中预测缺失部分的系统，基本上都是这样的:获取图像或视频，将其损坏或以某种方式进行转换，然后尝试从损坏版本中重建完整的视频或图像，然后希望系统内部能够开发出良好的图像表征，以便用于物体识别、分割等任何用途。这种方法基本上是完全失败的，而它在文本方面却非常有效。这就是用于 LLM 的原理。

Lex Fridman:失败究竟出在哪里?是很难很好地呈现图像，比如将所有重要信息很好地嵌入图像?是图像与图像、图像与图像之间的一致性形成了视频?如果我们把你所有失败的方式做一个集锦，那会是什么样子?

Yann LeCun:首先，我必须告诉你什么是行不通的，因为还有其他东西是行得通的。所以，行不通的地方就是训练系统学习图像的表征，训练它从损坏的图像中重建出好的图像。

对此，我们有一整套技术，它们都是去噪自编码器的变体，我在 FAIR 的一些同事开发了一种叫做 MAE 的东西，即掩蔽自编码器。因此，它基本上就像 LLM 或类似的东西，你通过破坏文本来训练系统，但你破坏图像，从中删除补丁，然后训练一个巨大的神经网络重建。你得到的特征并不好，而且你也知道它们不好，因为如果你现在训练同样的架构，但你用标签数据、图像的文字描述等对它进行监督训练，你确实能得到很好的表征，在识别任务上的表现比你做这种自监督的再训练要好得多。

结构是好的，编码器的结构也是好的，但事实上，你训练系统重建图像，并不能使它产生长而良好的图像通用特征。那还有什么选择呢?另一种方法是联合嵌入。

JEPA（联合嵌入预测架构）

Lex Fridman::联合嵌入架构与 LLM 之间的根本区别是什么?JEPA 能带我们进入 AGI 吗?

Yann LeCun:首先，它与 LLM 等生成式架构有什么区别?LLM 或通过重构训练的视觉系统会生成输入。它们生成的原始输入是未损坏、未转换的，因此你必须预测所有像素，而系统需要花费大量资源来实际预测所有像素和所有细节。而在 JEPA 中，你不需要预测所有像素，你只需要预测输入的抽象表示。这在很多方面都要容易得多。因此，JEPA 系统在训练时，要做的就是从输入中提取尽可能多的信息，但只提取相对容易预测的信息。因此，世界上有很多事情是我们无法预测的。例如，如果你有一辆自动驾驶汽车在街上或马路上行驶，道路周围可能有树，而且今天可能是大风天。因此，树上的叶子会以一种你无法预测的半混乱、随机的方式移动，而你并不关心，也不想预测。因此，你希望编码器基本上能消除所有这些细节。它会告诉你树叶在动，但不会告诉你具体发生了什么。因此，当你在表示空间中进行预测时，你不必预测每片树叶的每个像素。这样不仅简单得多，而且还能让系统从本质上学习到世界的抽象表征，其中可以建模和预测的内容被保留下来，其余的则被编码器视为噪音并消除掉。

因此，它提升了表征的抽象程度。仔细想想，这绝对是我们一直在做的事情。每当我们描述一种现象时，我们都会在特定的抽象层次上进行描述。我们并不总是用量子场论来描述每一种自然现象。那是不可能的。因此，我们有多个抽象层次来描述世界上发生的事情，从量子场论到原子理论、分子、化学、材料，一直到现实世界中的具体物体等等。因此，我们不能只在最底层模拟一切。而这正是 JEPA 的理念所在，以自我监督的方式学习抽象表征，而且还可以分层学习。因此，我认为这是智能系统的重要组成部分。而在语言方面，我们可以不用这样做，因为语言在某种程度上已经是抽象的，已经消除了很多不可预测的信息。因此，我们可以不做联合嵌入，不提升抽象程度，直接预测单词。

Lex Fridman:你是说语言，我们懒得用语言，因为我们已经免费得到了抽象的表述，而现在我们必须放大，真正思考一般的智能系统。我们必须处理一塌糊涂的物理现实和现实。而你确实必须这样做，从完整、丰富、详尽的现实跳转到基于你所能推理的现实的抽象表征，以及所有诸如此类的东西。

Yann LeCun:没错。那些通过预测来学习的自监督算法，即使是在表征空间中，如果输入数据的冗余度越高，它们学习到的概念也就越多。数据的冗余度越高，它们就越能捕捉到数据的内部结构。因此，在知觉输入、视觉等感官输入中，冗余结构要比文本中的冗余结构多得多。语言可能真的代表了更多的信息，因为它已经被压缩了。你说得没错，但这也意味着它的冗余度更低，因此自监督的效果就不会那么好。

Lex Fridman:有没有可能将视觉数据的自监督训练与语言数据的自监督训练结合起来?尽管你说的是10到13个 token，但其中蕴含着大量的知识。这10到13个 token 代表了我们人类已经弄明白的全部内容，包括 Reddit 上的废话、所有书籍和文章的内容以及人类智力创造的全部内容。

Yann LeCun:嗯，最终是的。但我认为，如果我们太早这样做，就有可能被诱导作弊。而事实上，这正是目前人们在视觉语言模型上所做的。我们基本上是在作弊，在用语言作为拐杖，帮助我们视觉系统的缺陷从图像和视频中学习良好的表征。

这样做的问题是，我们可以通过向语言模型提供图像来改进它们，但我们甚至无法达到猫或狗的智力水平或对世界的理解水平，因为它们没有语言。它们没有语言，但对世界的理解却比任何 LLM 都要好得多。它们可以计划非常复杂的行动，并想象一系列行动的结果。在将其与语言结合之前，我们如何让机器学会这些?显然，如果我们将其与语言相结合，会取得成果，但在此之前，我们必须专注于如何让系统学习世界是如何运作的。

事实上，我们使用的技术是非对比性的。因此，不仅架构是非生成的，我们使用的学习程序也是非对比的。我们有两套技术。一套是基于蒸馏法，有很多方法都采用了这一原理，DeepMind 有一种叫 BYOL，FAIR 有几种，一种叫 vcREG，还有一种叫 I-JEPA。应该说，vcREG 并不是一种蒸馏方法，但 I-JEPA 和 BYOL 肯定是。还有一种也叫 DINO 或 DINO，也是从 FAIR 生产出来的。这些方法的原理是，你将完整的输入，比如说一张图片，通过编码器运行，产生一个表示，然后你对输入进行破坏或转换，通过本质上等同于相同的编码器运行，但有一些细微差别，然后训练一个预测器。

有时预测器非常简单，有时预测器并不存在，但要训练一个预测器来预测第一个未损坏输入与已损坏输入之间的关系。但你只训练第二个分支。你只训练网络中输入损坏输入的部分。另一个网络则不需要训练。但由于它们共享相同的权重，当你修改第一个网络时，它也会修改第二个网络。通过各种技巧，你可以防止系统崩溃，就像我之前解释的那种崩溃，系统基本上会忽略输入。因此，这种方法非常有效。我们在 FAIR 开发的两种技术，DINO 和 I-JEPA 在这方面都非常有效。

我们的最新版本称为 V-JEPA。它与 I-JEPA 的理念基本相同，只是将其应用于视频。因此，你可以获取整个视频，然后屏蔽其中的一大块内容。我们所屏蔽的实际上是一个时间管，所以是整个视频中每一帧的整个片段。

这是我们所拥有的第一个能学习到良好视频表征的系统，因此当你将这些表征输入到一个有监督的分类器头部时，它能以相当高的准确率告诉你视频中发生了什么动作。因此，这是我们第一次获得这种质量的东西。

结果似乎表明，我们的系统可以通过表征来判断视频在物理上是可能的，还是完全不可能的，因为某些物体消失了，或者某个物体突然从一个位置跳到另一个位置，或者改变了形状什么的。

Lex Fridman:这能让我们建立一种足够了解世界并能够驾驶汽车的世界模型吗?

Yann LeCun:可能还需要一段时间才能达到这个目标。现在已经有一些机器人系统，就是基于这个想法。你需要的是一个稍加改动的版本，想象你有一段完整的视频，而你对这段视频所做的，就是把它在时间上转换到未来。因此，你只能看到视频的开头，而看不到原始视频中的后半部分，或者只屏蔽视频的后半部分。然后你就可以训练一个 JEPA 系统或我描述的那种系统，来预测被遮挡视频的完整表现形式。不过，你也要给预测器提供一个动作。例如，车轮向右转动10度或其他动作，对吗?

因此，如果这是一个汽车摄像头，而你又知道方向盘的角度，那么在某种程度上，你应该能够预测你所看到的画面会发生什么变化。显然，你无法预测视图中出现的物体的所有细节，但在抽象表示层面，你或许可以预测将要发生的事情。所以，现在你有了一个内部模型，它说:"这是我对 T 时刻世界状态的想法，这是我正在采取的行动。这里是对 T 加1、T 加 delta T、T 加2秒时世界状态的预测，" 不管它是什么。如果你有这样一个模型，你就可以用它来进行规划。因此，现在你可以做 LMS 做不到的事情，即规划你要做的事情。因此，当你到达一个特定的结果或满足一个特定的目标时。

因此，你可以有很多目标。我可以预测，如果我有一个这样的物体，我张开手，它就会掉下来。如果我用一种特定的力量把它推到桌子上，它就会移动。如果我用同样的力推桌子，它可能不会移动。因此，我们脑海中就有了这个世界的内部模型，它能让我们计划一系列的行动，以达到特定的目标。现在，如果你有了这个世界模型，我们就可以想象一连串的动作，预测这一连串动作的结果，衡量最终状态在多大程度上满足了某个特定目标，比如把瓶子移到桌子左边，然后在运行时规划一连串动作，使这个目标最小化。

我们说的不是学习，而是推理时间，所以这就是规划，真的。在最优控制中，这是一个非常经典的东西。它被称为模型预测控制。你有一个想要控制的系统模型，它能预测与一系列指令相对应的状态序列。而你正在规划一连串的指令，以便根据你的角色模型，系统的最终状态将满足你设定的目标。自从有了计算机，也就是60年代初开始，火箭轨迹的规划就一直采用这种方式。

强化学习

Lex Fridman:建议放弃生成模型而转而采用联合嵌入架构?你已经有一段时间是强化学习的批评者了。这感觉就像法庭证词，放弃概率模型，转而支持我们谈到的基于能量的模型，放弃对比方法，转而支持正则化方法。

Yann LeCun:我认为它不应该被完全放弃，但我认为它的使用应该最小化，因为它在采样方面效率非常低。因此，训练系统的正确方法是首先让它从主要观察（也许还有一点交互）中学习世界和世界模型的良好表示。

Lex Fridman:RLHF 为什么效果这么好?

Yann LeCun:具有转化效果的是人类反馈，有很多方法可以使用它，其中一些只是纯粹的监督，实际上，它并不是真正的强化学习。

开源

Yann LeCun:拥有人工智能行业、拥有不存在独特偏见的人工智能系统的唯一方法就是拥有开源平台，任何团体都可以在该平台上构建专门的系统。历史的必然方向就是，绝大多数的 AI 系统都会建立在开源平台之上。

Meta 围绕的商业模式是，你提供一种服务，而这种服务的资金来源要么是广告，要么是商业客户。

举例来说，如果你有一个 LLM，它可以通过 WhatsApp 与顾客对话，帮助一家披萨店，顾客只需点一份披萨，系统就会问他们:「你想要什么配料或什么尺寸，等等」。商家会为此付费，这就是一种模式。

否则，如果是比较经典的服务系统，它可以由广告支持，或者有几种模式。但问题是，如果你有足够大的潜在客户群，而且无论如何你都需要为他们构建该系统，那么将其发布到开放源代码中也无伤大雅。

Lex Fridman:Meta 所打的赌是:我们会做得更好吗?

Yann LeCun:不。赌注更大，我们已经拥有庞大的用户群和客户群。

我们提供开源的系统或基本模型、基础模型，供他人在此基础上构建应用程序，这也无伤大雅。如果这些应用对我们的客户有用，我们可以直接向他们购买。他们可能会改进平台。事实上，我们已经看到了这一点。LLaMA2的下载量已达数百万次，成千上万的人提出了如何改进平台的想法。因此，这显然加快了向广大用户提供该系统的进程，而且数以千计的企业正在使用该系统构建应用程序。因此，Meta 从这项技术中获取收入的能力并没有因为基础模型的开源分布而受到影响。

Llama3

Lex Fridman:关于 LLaMA3，你最兴奋的是什么?

Yann LeCun:会有各种版本的 LLaMA，它们是对以前的 LLaMA 的改进，更大、更好、多模态，诸如此类。然后，在未来的几代中，有能够真正了解世界如何运作的规划系统，可能是通过视频进行训练的，因此它们会有一些世界模型，可能能够进行我之前谈到的推理和规划类型。

这需要多长时间?朝这个方向进行的研究什么时候会进入产品线?我不知道，也不能告诉你。在我们实现这一目标之前，我们基本上必须经历一些突破，但大家能够监控我们的进展，因为我们公开发布了自己的研究。因此，上周我们发布了 V-JEPA 工作，这是迈向视频训练系统的第一步。

下一步将是基于这种视频创意训练的世界模型。DeepMind 也有类似的工作，加州大学伯克利分校也有关于世界模型和视频的工作。很多人都在做这方面的工作。我认为很多好的想法正在出现。我敢打赌，这些系统将是 JEPA 轻型系统，它们不会是生成模型，我们将看看未来会发生什么。

30多年前，我们正在研究组合网络和早期的神经网络，我看到了一条通往人类水平智能的道路，系统可以理解世界、记忆、计划、推理。有一些想法可以取得进展，可能有机会发挥作用，我对此感到非常兴奋。

我喜欢的是，我们在某种程度上朝着一个好的方向前进，也许在我的大脑变成白沙司或在需要退休之前取得成功。

Lex Fridman:你的大部分兴奋点还是在理论方面，也就是软件方面?

Yann LeCun:很多年前我曾经是一名硬件人员。规模是必要的，但还不够。有可能我未来还能活十年，但我还是要跑一小段距离。当然，对于能源的效率，我们取得的进步越远，我们在努力工作方面取得的进步就越多。我们必须降低功耗。如今，一个 GPU 的功耗在半千瓦到一千瓦之间。人脑的功率约为25瓦，而 GPU 的功率远远低于人脑。你需要10万或100万的功率才能与之媲美，所以我们的差距非常大。

AGI

Lex Fridman:你经常说 GI 不会很快到来，背后的基本直觉是什么?

Yann LeCun:那种被科幻小说和好莱坞广为流传的想法，即某个人会发现 AGI 或人类级 AI 或 AMI（不管你怎么称呼它）的秘密，然后打开机器，我们就拥有了 AGI，是不可能发生的。

这将是一个循序渐进的过程。我们是否会有系统能从视频中了解世界是如何运作的，并学习良好的表征?达到我们在人类身上观察到的规模和性能之前，还需要相当长的一段时间，不是一天两天的事。

我们会让系统拥有大量关联记忆，从而记住东西吗?是的，但这也不是明天就能实现的。我们需要开发一些基本技术。我们有很多这样的技术，但要让它们与完整的系统协同工作，那就是另一回事了。

我们是否将拥有能够推理和规划的系统，或许就像我之前描述的目标驱动型人工智能架构那样?是的，但要让它正常工作，还需要一段时间。在我们让所有这些东西协同工作之前，在让系统基于此实现学习分层规划、分层表示，能够像人脑那样针对手头的各种不同情况进行配置之前，至少需要十年时间甚至更长，因为有很多问题我们现在还没有看到，我们还没有遇到，所以我们不知道在这个框架内是否有简单的解决方案。

在过去的十几年，我一直听到有人声称 AGI 指日可待，但他们都错了。

智商可以衡量人类的一些东西，但因为人类的形式相对统一。但是，它只能衡量一种能力，而这种能力可能与某些任务相关，但与其他任务无关。但如果你说的是其他智能实体，对它们来说很容易做到的基本事情却截然不同，那么它就没有任何意义了。因此，智能是一种技能的集合，也是一种高效获取新技能的能力。一个特定的智能实体所拥有或能够快速学习的技能集合与另一个智能实体的技能集合是不同的。因为这是一个多维度的东西，技能集合是一个高维空间，你无法测量，也无法比较两个东西是否一个比另一个更聪明。它是多维的。

Lex Fridman:你经常反对所谓的人工智能末日论者，解释一下他们的观点以及你认为他们错误的原因。

Yann LeCun:人工智能末日论者想象了各种灾难场景，人工智能如何逃脱或控制并基本上杀死我们所有人，这依赖于一大堆假设，而这些假设大多是错误的。

第一个假设是，超级智能的出现将是一个事件，在某个时刻，我们会发现其中的秘密，我们会打开一台超级智能的机器，因为我们以前从未这样做过，所以它会占领世界，杀死我们所有人。这是错误的。这不会是一个事件。

我们将拥有像猫一样聪明的系统，它们具有人类智能的所有特征，但它们的智能水平可能像猫或鹦鹉之类。然后，我们再逐步提高它们的智能水平。在让它们变得更聪明的同时，我们也要在它们身上设置一些防护栏，并学习如何设置防护栏，让它们表现得更加正常。

在自然界中，似乎更聪明的物种最终会统治另一个物种，甚至有时是有意为之，有时只是因为错误而区分其他物种。

所以你会想:「好吧，如果人工智能系统比我们更聪明，肯定会消灭我们，如果不是故意的，只是因为他们不关心我们，」这是荒谬的 —— 第一个原因是它们不会成为与我们竞争的物种，不会有主宰的欲望，因为主宰的欲望必须是智能系统中固有的东西。它在人类身上是根深蒂固的，狒狒、黑猩猩、狼都有这种欲望，但在猩猩身上却没有。这种支配、服从或以其他方式获得地位的欲望是社会性物种所特有的。像猩猩这样的非社会性物种就没有这种欲望，而且它们和我们一样聪明。

人形机器人

Lex Fridman:你认为很快就会有数以百万计的人形机器人四处走动吗?

Yann LeCun:不会很快，但一定会发生。

未来十年，我认为机器人行业将非常有趣，机器人行业的兴起已经等待了10年、20年，除了预编程行为和诸如此类的东西外，并没有真正出现。主要问题还是莫拉维克悖论，我们如何让这些系统理解世界是如何运作的，并计划行动?这样，我们才能完成真正专业的任务。波士顿动力的做法基本上是通过大量手工制作的动态模型和事先的精心策划，这是非常经典的机器人技术，其中包含大量创新和一点点感知，但这仍然不够，他们无法制造出家用机器人。

此外，我们离完全自主的 L5驾驶还有一定距离，比如一个可以像17岁孩子一样通过20小时的驾驶来训练自己的系统。

因此，在拥有世界模型、能够自训练以了解世界如何运作的系统之前，我们不会在机器人技术方面取得重大进展。