真正的人工智能应该能够理解客观世界

国际科技财经移民娱乐民生时事体育

Bendi新闻

真正的人工智能应该能够理解客观世界

10月前

来源｜Lex Fridman（YouTube）

让AI像人类一样思考

“视频的信息比文本更加复杂和丰富，文本是离散的，视频是高维且连续的，其中包含了很多细节。”杨立昆分析道。

近日，Meta首席AI科学家，图灵奖获得者杨立昆（Yann LeCun）接受了莱克斯·弗里德曼（Lex Fridman）的播客采访。在访谈中，杨立昆再一次表达了自己对生成式AI不是未来发展主流方向的观点。他认为现阶段的LLMs（大型语言模型）并不智能，没有思考过程，只是简单地回答问题。此外，他还分析了图像和视频预测模型难以成功的原因，并直言自己带着团队研究了10年视频预测模型，都没有成功。在他看来，图像和视频信息的复杂程度要远高于文本，LLMs的训练方式并不适用图像和视频生成模型。

他坦言近几年才有相关的突破，提出了替代LLMs的方案——JEPA（联合嵌入模型架构），这是一种更像人类思考方式的机器学习模式。虽然也是生成式模型，但其并不注重预测所有细节，而是关注图像和视频的重点信息，更注重输出抽象层面的结果，而且由于不用过分关注细节信息，视频和图像的预测和生成也变得更易操作。

以下为核心观点：

1.理解物理世界的能力、记忆和检索信息的能力、推理能力、计划能力是人和动物具备的智能行为特征。

2.语言是对我们认知、思维模型（Mental Model）不够精确地表达，我们可以在大脑里模拟完成很多任务，这些都与语言无关。

3.人们所做的很多反应都和语言无关，就像你不会用任何特定语言进行内心独白一样，大脑中的思维活动很难用语言表达出来。

4.基于视频训练的生成模型，我们尝试了10年，还是无法成功做到，让系统去预测一个视频剩余的部分，几乎无法实现。

5.通过重建方法训练的LLMs需要花费大量资源来预测所有细节，JEPA并不尝试预测所有细节，而是尝试预测关键的输入信息，这在很多方面来看要容易得多。

以下为视频访谈的部分精彩内容（有删改）：

目前的大模型并不智能

主持人：你认为AR-LLMs（自回归大型语言模型），比如GPT-4、Llama 2甚至Llama 3等都不是我们未来人工智能发展的正确方向。它们的工作原理是什么？为什么不能带领我们一直走下去？

杨立昆：理解物理世界的能力、记忆和检索信息的能力、推理能力、计划能力是人和动物具备的智能行为特征。而目前的大模型不具备以上任何一项能力，或者只能以非常原始的方式做出以上的行为。它们并不能真正理解物理世界，没有记忆，没有真正的推理能力，当然也不会做计划。因此，如果无法做到那些智能行为，但却期望系统变得智能，那这个方向就是错误的。

不过，AR-LLMs确实有用，我们可以围绕它们构建一个应用生态系统，但作为通往人类智能水平的AI道路，它们还缺少必要的组成部分。而且现有的AR-LLMs接受了大量文本训练，这些文本素材基本来自互联网公开的信息，但人类通过感知系统接收到的信息要比阅读文本接收到的信息多得多。除了我们的直觉，我们学习和掌握的知识绝大多数来自我们对真实世界的观察和互动而不是语言。在最初几年生命中人类学到的东西，都跟语言没有关系。

主持人：也许有人会反驳你对感官信息和语言文本信息之间的比较，他们认为，相比于感官信息，语言文本信息是高度凝练的，知识密度大。是否有可能仅靠语言文本信息就足够大模型去理解物理世界了呢？对此你怎么看？

杨立昆：这是哲学家和认知科学家之间的一场大辩论——智能是否需要扎根于现实。我本人支持需要扎根现实这一派，没有现实的基础，智能就不可能出现。这个现实或许不是物理层面的，而是被模拟出来，但无论如何，环境带来的信息远比语言表达的要丰富得多。语言是对我们认知、思维模型（Mental Model）不够精确地表达，我们可以在大脑里模拟完成很多任务，这些都与语言无关。当我们进行拿取东西之类的中等任务时，实际上已经在脑海中迅速设计好动作顺序了，本质上我们是通过想象完成这项任务的，与语言无关。所以我认为大部分知识来自我们和世界的互动，而非来自语言文本。

世界的复杂性是难以想象的，甚至有人认为不需要人工智能，就像机器人学先驱汉斯·莫拉维克（Hans Moravec）提出的莫拉维克悖论一样。我们现在有能通过律师考试的AI大模型，但它没办法像人一样在20个课时内学会开车，也无法做到看一遍就能学会清理餐桌、刷碗等活动。这是为什么呢？我们是不是错过了什么学习或者推理的架构，导致我们做不出L5级别自动驾驶或者家用机器人？

主持人：现在大模型还无法处理视觉层面获得的信息，但理论上大模型能构建一个知道如何驾驶汽车或如何给洗碗机装水的世界模型吗？

杨立昆：这是目前很多人在努力做的事情，但我认为这是行不通的。你可以使用各种技巧让大模型基本消化来自图像、视频或音频的信息，典型的方法是以某种方式训练视觉系统，我们有监督、无监督、自监督等多种训练视觉系统的方法，将图像转换为高级表征——基本是以一个tokens列表的方式，将这些tokens写入大模型，来帮助大模型生成决策。

现在某些公司在这个方向上已经研究了很长时间了，一些LLMs模型已经有一定的视觉扩展，但这些还达不到真正理解世界。

主持人：所以你认为直觉、物理空间的常识性推理、物理现实这些是大模型无法跨越的鸿沟吗？

杨立昆：现有的大模型肯定做不到，主要原因是LLMs的训练方式是用一段删除或替代了其中部分单词的文本去训练一个大规模的神经网络，让它预测丢失的单词。如果你以一种特定的方式来构建这个神经网络，使其只能查看它试图预测单词左边的文字，那么你这个系统基本就是试图预测下一个单词，你只需要给它提供文本和提示，然后要求它预测下一个单词，但实际上它永远无法准确预测下一个单词，所以它能做的就是生成字典中所有可能单词的概率分布。事实上，它不预测单词，而是预测作为单词标记的token。因此很容易处理预测中的不确定性，因为字典的单词数量是有限的，只需要计算它们的分布即可，然后系统从该分布中选择一个单词，再将单词输入系统，就可以预测第二个单词了，这就是自回归预测，那些LLMs模型也被称为自回归大语言模型。

但是这种自回归预测单词的做法和我们人类说话的方式截然不同。我们在思考时并不会考虑用什么语言，但在表达时会考虑这一因素。例如当我们讨论某种数学概念，我们所做的思考和得出的答案与我们选择使用法语还是俄语把它说出来都没有关系。

主持人：你的意思是我们人类在语言的背后有一种抽象思维，我们说出来的话是这种抽象思维的映射。

杨立昆：是的，背后有很多思考。

主持人：那你的英语思维和法语思维是一样的吗？

杨立昆：很大程度上是没有区别的。不过还得取决于是哪种思考，比如在一语双关方面我法语肯定比英语好一些。

主持人：就像你发推文时有时候会比较尖锐，在推文内容映射到英语输出之前，你的大脑中是否有抽象的表示？

杨立昆：会想象读者读到该文本的反应，然后调整表达。人们所做的很多反应都和语言无关，就像你不会用任何特定语言进行内心独白一样，大脑中的思维活动很难用语言表达出来。

比如我想象一下把矿泉水瓶翻转九十度会发生什么？这种思考跟语言没有任何关系。所以显然存在一个更抽象的表达层次，并且大多数思考都在这个抽象层面进行。我们会思考如何表达我们的思维活动，可能还会配合肢体动作，但大模型还做不到，目前只是本能地一个字一个字输出，没有思考。它能够获取一些东西，是因为它积累了大量的知识，它能“吐”出一些东西来，但是它在作答之前没有构思的过程，只是简单地回答问题。

研究了10年的视频预测均失败了

主持人：这种逐字生成的方式必然会过于简单，但如果世界模型足够复杂，它生成的信息是否会更深刻？能构建一个真正理解世界的模型吗？

杨立昆：对于这个问题，我们首先需要思考可以通过预测来构建吗？你能通过预测单词来构建吗？答案显然是否定的，因为语言所承载的信息非常贫瘠。因此，构建世界模型意味着观察并理解世界为何以现在的方式演变，然后世界模型的额外组成部分可以预测世界将如何因你可能采取的行动而演变。

真正的世界模型是：我对T时刻世界状态的想法，叠加上此时我可能采取的行动1，需要得出T+1时刻的世界的状态是什么？当前场景的状态不需要代表一切，只需要代表与行动计划相关的足够的信息，不一定是所有细节。而生成模型是无法做到这一点的。基于视频训练的生成模型，我们尝试了10年，还是无法成功做到，让系统去预测一个视频剩余的部分，几乎无法实现。

主持人：一次一帧，做与自回归大语言模型相同的事情，只是不是文本生成，而是视频生成，这就是视频大模型。

杨立昆：对。一次一帧或一次一组帧。在FAIR（Meta投资的AI实验室），我和同事已经研究了10年的视频生成模型，视频生成与文本生成并不一样，不能使用和LLMs相同的技巧，LLMs虽然无法准确预测下一个单词，但可以预测单词的分布。而视频生成则是要预测视频中所有帧可能的分布情况，我们真的不知道该如何正确地做到这一点，也不知道如何以有效的方式表示高维连续空间上的分布。我们之所以做不到，是因为视频的信息比文本更加复杂和丰富，文本是离散的，视频是高维且连续的，其中包含了很多细节。

打个比方，如果我要拍摄这个房间的视频，使用平移的手法拍摄，那么当摄像机平移时，我们无法预测房间中的所有细节，即使能预测到房间里有灯、有墙，但也无法预测墙壁的绘画以及沙发的纹理，现有的视频大模型是无法做到的。

要想解决这个问题，有效的方法可能是构建一个包含潜在变量（Latent Variable）的新模型，用潜在变量来处理那些不确定性。将这些潜在变量输送到神经网络中，这些潜在变量应该包含世界上所有已存在的信息，可以让系统从中预测到那些不确定的东西，但这项技术失败了。

我们尝试了直接链接神经网络，生成对抗网络（GANs）等各种方法，还尝试用这些方法来训练图像或视频模型，像很多系统一样来预测图像或视频缺失的部分，尝试重建完整的图像或视频，但最后失败了。

主持人：为什么会失败呢？视频是由一帧一帧的图像构成的，确保图像的信息准确不能达到这个效果吗？要不要分析一下那些失败的精彩瞬间。

杨立昆：用类似文本训练的方法来训练一个图像或视频预测系统是不起作用的。我们有一大堆这类技术，像Auto-Encoder（自编码器）还有FAIR实验室自研的编码方式，都没办法做到图像或视频的预测。LLMs模型是通过破坏文本来训练系统的预测能力，而对于图像，如果删除其中的某个像素或者采用潜在变量的方式重建巨大的神经网络，或许能预测出来，但效果不好。我们的替代的方案是使用联合嵌入模型架构（JEPA）

更“类人”的机器学习模式

主持人：什么是JEPA？

杨立昆：JEPA模式不是训练系统对那些损坏版本的图像进行编码，而是将完整的和损坏的图像都通过编码器转换后“喂”给系统，图像信息是联合嵌入的。然后需要为系统训练一个预测器，既可以预测那些完整的图像，也可以预测损坏的图像。但最大的问题是如何训练这样的东西？直到五年前，我们都还没有特别好的答案。

不过，有一种对比学习的方法有一些效果。对比学习的方法指的是，你获取一张图像，然后找到它的正负样本，一张与其相似，一张与其相反，通过指令将它们分开，大大增加了识别的准确性，还可以有效防止机器崩溃。不过这种方法还是存在一些局限性，过去六七年里出现了大量技术可以复兴这一方法，其中一些来自FAIR，另外一些来自谷歌和其他地方。最近三四年我们有了新的突破，出现了非对比的方法，不再需要那些不同图像的负对比样本，只需要同一事物的不同版本或不同视图的图像来训练它们，我们还有好几种方法可以防止系统崩溃。

主持人：JEPA和LLMs之间的根本区别是什么？

杨立昆：通过重建方法训练的LLMs需要花费大量资源来预测所有细节，JEPA并不尝试预测所有细节，而是尝试预测关键的输入信息，这在很多方面来看要容易得多。因此，JEPA系统在接受训练时试图做的是从输入端提取尽可能多的信息。世界上有很多事情是我们无法预测的，例如你在路上开车，道路周围可能有树木，当天可能有大风，树上的叶子掉落的轨迹是混乱的，无法预测，但你并不在乎，我们并不需要这些细节，只要告诉你树叶在动就可以。在进行预测时，系统不必计较每个细节，将可以建模和预测的关键内容保留，其余的作为噪声由编码器消除，这样的预测方式更易操作，也更像我们人类的思考方式。

主持人：那么JEPA仍然是生成式模型，只不过它可以不用关注那么多细节，更像人类的思考方式。人类的语言可以说很“懒”，很多时候只抓关键内容，不会太在意细节，但对于一般的智能系统来说，就需要非常详实的数据才能帮助它做出决策。但如果我们想AI拥有人类水平的智慧，就必须向不依赖海量数据训练的模式转变，让AI更像人类的学习模式一样，是吗？

杨立昆：是的。我更推荐无监督的学习模式，我们可以给大模型输入更多数据，不单纯是让他们理解语言文本，还有很多环境背景里包含的信息。我们输入更多信息，它们就能捕获更多数据，也就越能理解这些数据的内在关联。因为这些数据不单纯是语言文本，所以信息维度更多，更丰富，回到之前讨论的问题，你认为语言信息是高度凝练的，知识密度大，但正因如此，其删减了很多原始信息，缺失了这种“冗余”的信息要素，反而失去了那些抽象的思维结果，所以自我监督也不会发挥作用。

主持人：可以将视觉数据自监督训练和语言数据自监督训练结合起来吗？

杨立昆：最终肯定能做到，但目前这么做还太早了。现阶段这么做很容易被诱惑，使用语言作为“拐杖”来掩盖我们视觉模型的缺陷。但问题是我们现在的大模型智力水平甚至还不如猫狗，它们虽然没有语言，但比任何LLMs都更了解世界，它们可以计划非常复杂的行动并想象一系列行动的结果。如果能让大模型学会像猫狗那样凭常识理解世界，这将是里程碑式的进步，但在此之前，我们必须关注如何让AI系统了解世界是如何运作的。

如果你不想错过内容，记得点下“赞”和“在看”，这样，每次新文章推送，就会第一时间出现在你的订阅号列表里了～

“博士悦读”是专业的MBA、EMBA、DBA咨询服务平台，为在职人员提供一站式学历学位以及高管培训的最佳方案，上海、北京、广州、深圳、杭州、南京、苏州、青岛、成都、重庆等教学区任意选择。(点击“阅读原文”查看更多国际在职“MBA/EMBA/DBA”课程）