AI底层逻辑（1）：离超级人工智能到来还有多远

国际科技财经移民娱乐民生时事体育

Bendi新闻

科技

信息技术

10月前

这是郝景芳的闲聊自留地，关不关注请随意~~

【写在前面】

从今天开始，连载几篇有关人工智能的文章，是我自己2017年写的科普文章。当时是AlphaGo横空出世，带起一波人工智能热潮，今天人们讨论的很多问题，例如“人工智能会不会取代人类”“人工智能时代该如何学习”等等，在当初已经被讨论了一轮。因此我当时写了一些科普文章和科幻小说，都是讲人工智能，收录在《人之彼岸》一书中出版。

七年过去了，ChatGPT和Sora再一次震惊世人，当初的讨论又一次被拿出来掀起热议。我回头看了一下，七年前的文章基本上全文都依然适用。如今的ChatGPT和Sora的原理和当初的AlphaGo方向一致，只是在数据量和算力上大大增加，以及如何寻求最优解的算法上用了更好的框架。对于普通人的科普，大致了解深度学习原理即可，Diffusion等求解算法有一点太深了，可以作为专业学习。

因此，我还是把七年前的文章贴出来，作为AI一般原理的科普和讨论。有很多观点是我的一家之言，供大家参考。

（上周有关孩子的生涯规划的文章，本来想连载三天，但是整理了一下，感觉第三天的文章涉及到太多用户案例和信息，还是不适合直接公开发表，就截止为两篇吧。）

今天3月18日（周一）中午12：00，我邀请到IDEA研究院认知计算与自然语言讲席科学家张家兴老师，给大家进行有关AI时代就业与教育的讲座分享。张家兴老师是国内研究自然语言处理的一流专家，对ChatGPT大语言模型和下一代人工智能发展方向研究很深，也有对于职场发展的独特见解。

收听方式：在我的公众号后台私信回复“理科”，加入“理科培养计划”群，收看直播。直播是群内直播，不公开对外。

离超级人工智能到来还有多远

在这两篇文章里，我想先讨论一些大家都关心的问题。

“人工智能会在每个方面都超越人类吗？”

“人工智能会爱上人类吗？”

“人工智能会毁灭人类吗？”

……

这些问题最近真是太火了，大佬们在媒体上议论，吃瓜群众在网络社群里议论。

借这热潮，我也想来讨论一下，人工智能未来会变成什么样。

很远之后的人工智能，会变得像人一样吗？会像《西部世界》或是《机械姬》里面那样觉醒吗？会像《终结者》或者《黑客帝国》里面那样对抗人类吗？未来的人工智能会有什么行为？超级人工智能会实现吗？我们距离超级人工智能还有多远？

这些问题很有趣，只是都很大，很容易变成空对空的议论。

支持者说，人工智能会让全世界更美好；怀疑论说，人工智能分分钟就能毁灭人类。

人文学者说，人工智能永远学不会爱；技术派说，人工智能能做到人类智能的一切。

这些全都来自专家之口，又都大而广之，我们该信哪一个？该反驳哪一个？

这里面有太多概念上的问题，太宏观也就无从讨论。

我要从什么地方开始谈呢？

我想，还是从小处入手，从阿尔法狗开始谈。

阿尔法狗是这一轮人工智能热的开端，也是这一波人工智能潮流中最具典型性的技术之集成。它的胜利是整体人工智能的希望，它的困难也是所有人工智能的瓶颈。

我想先谈一下阿尔法狗厉害在哪里，然后讲一下它目前面临的困难。以此出发，对整体人工智能的发展前景做一下展望。

我想从阿尔法狗向未来展望，我们距离超级人工智能的到来还有多远。即使我们谈论的是未来即将毁灭我们的坏智能，也需要认真对待生成它的步骤。把大象放进冰箱还需要三个步骤，我们连冰箱门在哪里还没找到，就谈论大象冻成冰棍的味道，未免太早了些。

阿尔法狗会发展为超级智能吗？

阿尔法狗的厉害之处

故事从阿尔法狗开始。可能很多人还不了解阿尔法狗的重要性，觉得不就是会下围棋吗，怎么引起这么多轰动的议论？

阿尔法狗的厉害之处，并不在于它赢得了围棋冠军。

它赢得围棋冠军是很厉害，但这不是最关键的。围棋毫无疑问是很需要智力的游戏——可能是人类最需要脑力的高级游戏——但如果只是一个围棋冠军，在世界范围内并不会引起这么大的热潮。它厉害的地方在于，它不仅能做围棋冠军。

历史上也有过机器战胜人类的轰动，深蓝战胜卡斯帕罗夫，沃森战胜人类智力竞赛冠军。当时也有过“机器就要统治人类”的惊呼，但过不了几年，声音又消失殆尽。于是吃瓜群众难免会问：这次难道有什么不一样？是不是又是“狼来了”的闹剧？

事实上，以阿尔法狗为代表的新时代人工智能，确实还是有一些不一样的地方。

阿尔法狗的厉害之处，在于能够自己快速学习。

机器分成两大类，一类是：人类研究出一些方法和学问，教给机器，机器也能学会做；另一类是，把原始素材丢给机器，机器自己琢磨琢磨，自己找出了对的方法。前者是师傅说先放油、再放肉、最后放菜，徒弟跟着学，一盘菜就炒好了；后者是师傅丢给徒弟一堆材料，徒弟自己试来试去，最后自己发明了更好吃的菜。

以前的计算机多半是前者，以阿尔法狗为代表的新一代人工智能基本上能实现后者。

如果只是跟着师傅做学徒，只学到师傅的招数，即便手脚麻利办事勤快，也不足为惧；但如果自己琢磨功夫，琢磨出来的功夫比师傅还厉害，发明了师傅都看不懂其招数，那岂非让人大大惊惧？

阿尔法狗就是这样的。人们并没有教它下棋的套路，只是丢给它以前的棋谱，让它自己观察，观察好了就自己跟自己对弈，最后再出来和高手过招。最终的结果就是它会下棋了，下的棋路与人类高手都不同，但人类下不过它。就好比把一个人丢在荒山野岭中，无人问津，出山的时候却成了绝世高手。

你说这可怕吗？

听起来有点可怕。不过这种学习能力还能做别的吗？如果只能下围棋，那也不足为惧。

答案是，完全可以。这恰恰是关键所在。这一轮人工智能热潮之所以引起那么多人追逐，就是因为人们发现阿尔法狗所仰赖的学习算法，还能做很多很多别的事情。

下围棋只是首当其冲的例子，用同样的算法，稍加改造，就能学会金融投资、看合同、销售策略、写新闻。还有很多别的事情。在短短几年里，就已经有各个行业领域的人工智能诞生出来。

什么？这是什么算法，有这样的魔力？

阿尔法狗究竟是如何做到自我学习的呢？

实际上机器学习并不是非常新的概念，从几十年前，人类就试图让机器自己学习事情，但受限于算法和当时的计算速度，机器学习的步子一直都不快。

阿尔法狗的算法叫“深度学习”，它的前身是“神经网络学习”，也是几十年前就诞生的算法，当时流行过一段时间，后来被一篇著名的论文打消了热度，再加之学习效果不算好，于是遭遇冷遇几十年。在与阿尔法狗的创始人相遇之前，“神经网络”并不是众望所归。

“神经网络”是什么算法？“深度学习”又是怎样将其点石成金的？

“神经网络”是一种“民主投票”算法，效仿大脑的神经网络建成。大脑的神经网络是这样工作的：一个神经细胞接收很多个神经细胞的信号输入，一个刺激信号相当于赞成票，一个抑制信号相当于反对票，如果某个细胞收到的赞成票和反对票合起来大于某一个门槛，就算是通过了，会有一个信号发出去到下一个神经细胞。一路赞成的刺激信号就这样一程程传递下去。神经网络算法是数字版脑神经网，用数字连接形成网，而其中的投票机制和大脑相似。它可以让信号在整个学习网络里传播，比单路信号分析复杂很多，也智能很多。

“深度学习”是什么呢？“深度学习”是“深度多层神经网络学习”的简称。深度是指层次多，一层套一层的神经网络，构成整个算法的深度。层与层之间的关系，大致是这样：每层神经网络分析的精细程度不同，底层分析细节，上层做出判断。将一个整体任务分解成无数细节，给一个输入，底层神经网络会分析基础细节，然后将分析结果传给上一层网络，上一层网络综合之后再将结果传给更上一层的网络，而顶层网络综合层层传来的结果，做出判断。例如，想读出一个字，底层网络会判断字里有没有横竖撇捺，上一层网络会判断字里有没有直角，再上一层网络判断是不是由左右两部分拼成一个字，诸如此类，最上层的网络根据层层结果认出这个字。这种多层判别本身是效仿真实人类的大脑，人类大脑就是由一层层神经网络组成，每一层网络识别信号，再将处理结果传递到上一层。人类皮层大脑的神经网络层次大约有六层。“深度学习”网络可以有上百层。

换句话说，“深度学习”就是把从前的“神经网络”重叠了多层。

就是这样吗？仅仅把“神经网络”叠了多层，就从受人冷遇的小人物变成了江湖明星？故事有这么鸡汤吗？

当然不是这么简单。“深度学习”这次能焕发生机，也是生逢其时，有两阵不可忽略的东风送其上青云。

一阵东风是算力增强。计算机芯片的速度呈指数增长，价格一路下跌，由游戏应用发展壮大的GPU大大不充了从前CPU引擎的计算能力，让人工智能计算更强大。阿尔法狗战胜李世石的时候启用了1920个CPU和280个GPU阵列运算，一秒能自我对弈数百盘。

另一阵东风是大数据。事实上，这可能是这一轮人工智能热潮最重要的推动因素。人们赫然发现，原来不是算法的问题，而是以前用来训练的数据还远远不够多。这就好比让徒弟自学武功，却不给他足够多的对战机会。有了大数据，算法呈现的结果出现了惊人的进步，让人目瞪口呆。

于是，在算力和大数据的辅佐之下，升了级的“深度学习”算法如虎添翼，能够从海量数据中找到高超的战术规律，以人类无法看懂的方式战胜人类。

就是大数据辅助的“深度学习”，成为了这一轮人工智能热的关键。

人们把很多很多大数据扔给机器，用多层神经网络进行“深度学习”，结果发现，机器在很多领域能力有了突飞猛进提高。图像识别的正确率赶上了正常人，语音识别也过关了，把科学文献作为数据，短时间就能学习几十万最新文献。金融、电力、能源、零售、法律，深度学习都能从大数据中学到优化的行为做法。人工智能的应用，能让这些领域变得高效、便捷自动化。除了“深度学习”，也还有其他算法，包括后面要提到的决策树、贝叶斯等等算法，各种算法的综合使用效果是最佳的。各种算法共同构成机器学习大家庭。

除了深度学习，阿尔法狗另一重武器叫做“强化学习”。“强化学习”是什么呢？简单点说，就是“无序尝试，定向鼓励”，就好比小朋友在屋里随机行动，走到数学教具旁边父母就说“好棒好棒”，后来小朋友就特别喜欢走到数学教具旁边（当然，这纯属假想的场景）。这种思维一点都不奇怪，在心理学中很早就已经应用到教学中，对大多数教学场景都有效果，尤其对一些发展迟缓的孩子做教学干预（但也有心理问题）。

最近我们都听说了新版本的阿尔法狗零，依靠自我对弈的强化学习，用3天时间战胜了老版本的所有阿尔法狗。这是很强大的方法。实际上，在阿尔法狗的最初版本中，自我对弈的时候也已经用到强化学习。随机尝试和正反馈能使得行为很快集中到特定的行为上。

现在问题就来了，还有什么是人工智能学不会的吗？

人工智能面临的瓶颈

如果机器学习这么厉害，人工智能什么都能学会，是不是很快就要取代人类了？

可以肯定的是，目前的人工智能还不是什么都能做，我们离万能超级人工智能还有很远的距离。

那是运算速度的问题吗？如果芯片算力按照摩尔定律、指数增长一直持续，我们会不会很快达到智能的奇点？

我个人的观点是，不完全是运算速度的问题，即便运算速度持续翻倍，也还有一些阶梯的困难需要一个一个跨越。这些困难也许并不是永远不可能跨越，但至少不是目前的算法能简单跨越，而必须有新的算法或者理论突破（其实现在也有很多别的算法，我后面讨论）。

说到这里，闲聊两句。很多事物的发展，是阶梯状的。我们往往容易从一件事的成功，推测未来所有事成功，然而遇到了下一个挑战，仍然需要新的等待和突破。

人工智能这件事，人们的议论往往太过于now or never，要么认为目前已经条件成熟，只要算力增加，就能奇点来临；要么认为这都是痴人说梦，机器永远学不会人类的心智。但实际上更有可能的是，很远的未来有可能做到，但需要一个又一个翻越理论台阶。

举一个例子。

从牛顿力学和工业革命时期，因为牛顿定律的强大，人们就认为自己解决了世界上所有问题，未来只需要算，就能把一切预测出来。那个时候就有哲学观认为人就是机械机器。但事情的实际发展是：牛顿定律解决不了所有事。二十世纪初的时候，人们把牛顿定律和电磁理论结合起来，相信人类物理学大厦已经完备，只剩下头顶上的“三朵小乌云”，然而正是这“三朵小乌云”，牵扯出了后面的量子力学和相对论，直到现在人们也没有算出全世界。未来呢？人类有可能完全揭晓宇宙的奥秘吗？有可能。但仍然有一个一个新的鸿沟。

与之类比，超级人工智能有可能成真吗？有可能。但不是立刻。技术上还有一个个困难台阶需要跨越。“深度学习”不是万能的，算力也不是唯一重要的因素。

我把人工智能目前还解决不了的问题，也称为“三朵小乌云”。

什么是人工智能目前解决不了的问题呢？我们仍然从阿尔法狗说起。

阿尔法狗的强大是所有人工智能的强大，它面临的困难，也是人工智能问题的缩影。

阿尔法狗对一些人类觉得困难的问题觉得很简单，而对人类觉得简单的问题觉得困难。举一个很小的例子。这样一个问题，它就会觉得困难，难以回答：

如果一个人从超市的货架上拿了一瓶酒就跑出门，店员会做什么？为什么？

如果是一个人，会如何回答？人会觉得这个问题太简单了啊，店员有可能会直接去追，因为要把店里的商品追回来；也有可能会打电话报警，因为自己不想冒险；或者告诉老板；或者喊路人帮忙。诸如此类。

但是目前的人工智能会觉得这个问题很难，无法回答。原因主要在于以下几个方面

第一，是综合认知的能力。

第二，是理解他人的能力。

第三，是自我表征的能力。

为什么人工智能会觉得这些问题难？我们一个一个看。

第一个难点，综合认知的能力。

这段话对于我们每个人类而言都是非常简单的，头脑中甚至一下子就能想到那种画面感。但对人工智能来说就是很难理解的。为什么？

最主要的差别在于常识。

当我们理解这段话，我们头脑中实际上是反应出很多背景信息，包括：1）他想喝酒；2）他没有付钱；3）酒摆在超市是一种商品；4）从超市拿东西需要付钱；5）他没有付钱就出门是违规的；6）他是想逃跑；7）超市店员有义务保护超市商品，不能允许这种事情发生。在所有这些背景信息支持下，我们可以一眼辩认出这个动作画面的情境。除了我们自然脑补的这些背景信息，也还是有一些小概率背景信息，有可能影响对情境的解读。也许这个人是店主，有急事出门，如果是店主，自然不用付钱，店员也不会见怪。等等。但可能性不大。任何一个情境的解读都需要大量常识作为背景信息。

常识包含我们习以为常的知识总和，包含我们对整个环境和经济系统的理解。这些理解都太平常，我们就称之为常识。人工智能目前还没有没有这些常识，它并不知道一瓶酒摆在超市里和公园里有什么差别，也不知道超市买东西的惯例流程。从语法上说，从超市拿酒和从公园拿酒都是合语法的表达，但我们知道，其中一个合理一个不合理。

你也许会说，这是因为机器缺少生活经验，输入经验就可以了。我们这一次当然可以给机器输入酒的涵义、超市的涵义、超市的购买规则、小偷的涵义、店员的职责，但好不容易输入了所有这些信息，会发现下一句话涉及到大量有关街头和交通的常识，依然要手动输入。到了最后，整个世界的无数无数知识碎片我们都需要输入，如何调用又成了问题。

“常识”经常被认为是区别AI和人的重要分野。“常识”把各个门类信息汇集到一起、形成广泛知识背景网的能力。这种能力我们人人都有，因而并不觉得稀奇，然而机器没有，我们才知道其可贵。

为什么机器难以具有常识？有多重原因，目前人们仍在尝试去理解。首先的直接原因是，机器缺少物理世界的生活经验，所处理的是人类的二手信息，对于周围的物理世界没有真实接触，不知道什么是可能的，什么不可能。例如“石头放在鸡蛋上”还是“鸡蛋放在石头上”只是词语游戏，对于AI没有真实意义。AI也不知道人绕房子一周会回到原点。

对于这个原因，我们可以想出技术上的解决方案，一个是制造更精细的真实的机器人，让机器人在物理世界里不断探索，最终把物理世界的常识都记录到心里，这种可能性的问题在于机器人本身制造的困难（具体有哪些困难后面再说）；另一个可能的方案是让人工智能的虚拟人物在虚拟世界里生活，只要虚拟世界本身的物理特性完美仿照真实世界，虚拟人是有可能学会知识的。只是，这个方案首先需要一个能够完美感知和识别虚拟世界物体的虚拟大脑，目前的人工智能“仿脑”技术还做不到这一步。

除了缺乏直接的物理世界的经历，还有可能是因为更核心的原因，那就是人工智能目前还缺少建立“世界模型”的综合能力。

人类拥有“完形”认知的心理能力，能让我们把碎片信息编制完整。这是一种高度统合的能力，我们能把躯体五感统合起来，共同构成对世界的感觉。同样，人对各个方面得到的碎片知识也有一种统合的能力，大脑会把碎片粘贴起来，把碎片之间的部分补齐，以期构成一个完整的知识世界。

事实上，人的“完形”并不仅是“拼凑”碎片信息，而是建立一个模型，然后用模型来理解碎片信息。“完形”是把信息连接成可以理解的图景。中间有大片空白我们要“脑补”。我们能从验证码的碎点图片中看出连贯的字母，而计算机程序做不到。我们能把没关系的人连接在同一个故事里，只需要想象一两重关系，就能组成复杂的阴谋论。

所有研究人类视觉和认知的心理学家都清楚，人类的视觉包含大脑的建构。人类视网膜得到的是二维图像，就像相机的照片一样。但人类的视觉体验绝不仅仅停留在一堆“视网膜照片”上。我们眼前看到的世界直接是三维立体视觉，我们感觉自己清清楚楚“看到”一个三维立体的杯子，“看到”具有纵深的房间，“看到”他人离自己的距离。但实际上，我们是不可能直接“看到”三维物体的，我们眼睛里接收的只是平面图，是大脑后台计算还原出的三维立体效果。

我们的眼睛在我们注意不到的情况下不断快速转动，拍摄四面八方的图像，而随着我们身体移动，视网膜上的投影照片也在不断变化。可是我们的感觉接收到的并不是一张张分离的照片，而是一个恒常稳定的周围世界。这是如何做到的？答案并不难，正如人工智能之父马文.明斯基所说的：“我们不需要不断‘看见’所有事物，因为我们在大脑中建构了视觉的虚拟世界。”神经学家威廉.卡尔文也曾说过：“你通常观察到的看似稳定的场景实际上是你所建构的一个精神模型。”事实上，我们居住在大脑制造的虚拟现实中。

这个虚拟的模型，就是我们每个人头脑中的“世界模型”。

而很少有人讨论的是，我们心中对这个世界的知识，也像视觉一样，有整体的模型进行综合。

我们对物理环境的理解、对世界运行规律的理解、对社会的理解、对正义的理解，全都交织在一起，构成我们思维的背景。大脑把所有社会感知信号也构造成完整的“世界模型”。我们人与人有很多共享的常识和语境，例如谁是美国总统、被石头砸到会怎样；但也有我们每个人独特的“个人世界模型”，例如“男人都是不可靠的”、“命运会善待坚持的人”，等等。这些是我们大脑把各个领域所有知识汇集之后得到的结果，它是思维的语境，就像视觉背景，也是人与世界打交道、沟通的前提。我们的决策是在这样的模型中形成。

这种综合能力让我们能跨领域认知。我们可以把喝酒、下围棋、钻井和看病的信息放在头脑中同一个世界，但是对于AI来说，这些专业知识就是四个不相关的领域，要四个AI来分别处理。人的综合认知能力，使知识连成一体，但人工智能目前只能是专业化人工智能，一旦下围棋人工智能学习了金融知识，就把围棋知识完全忘记了，等它再学习钻井知识，又把金融知识忘记了。这被称为“遗忘灾难”。专业人工智能的知识至少在目前，还无法相互连接构成“世界模型”。于是人类仍然有它们不具备的视野和大局观。

我们的人脑如何具有这样的综合能力和对世界的建构，仍然是一个谜。

第二个难点，理解他人的能力。

即便人工智能未来能够把各个学科相关知识都学习到，建构起“世界知识体系”，但在理解情境相关的问题时，仍面临如何调用正确信息的问题。当一个人对另一个人生气，应该从他们环境和背景的海量信息中调用哪些知识，来理解他生气的理由？

对人而言，这不成问题，我们能非常容易猜测到，对生气的两个人而言，什么是重要的因素，什么是有可能导致他们愤怒的导火索。这主要是源于我们对人的理解，对我们自己和周围人的理解，我们知道什么样的信息会引人兴奋，什么样的信息会让人沮丧。读心的能力让我们轻易做出推断。

至少目前，人工智能还不具备这样的能力。且不说理解复杂的场景，仅仅就“树上蹲着五只鸟，开枪打下来一只，还剩几只”这样的问题，它们也还回答不上来。它们无法推断，鸟儿因为害怕，就会逃走。

正如著名心理学家、语言学家斯蒂芬.平克所说：“如果不是建立在一个庞大的关于外部世界以及他人意图的内隐知识结构的基础之上，语言本身并不起作用。”缺乏对于他人心理的常识系统，使得人工智能仍然难以“理解”人类日常的语言。

未来人工智能有可能学会读懂人类的情感和意图吗？

很多人都提到，目前人工智能已经可以精细识别人类的表情，能够读懂人的情绪。是的，人类的情绪属于一种外显图像，是比较容易识别的，这和识别东北虎、识别癌细胞类似，是图像识别的一个范畴。但这和理解人的情感完全是两回事。即便它们未来能从图像上识别出一个人此时的情绪，想要“解释”此人的情绪，也需要远为复杂的对人心的理解。

也有很多人提到，人工智能可以通过与人对话理解人的情感。但这实际上也离得很远。目前它们能做的只是智能对应，当听到人类说出句子A，在语料库中寻求识别匹配最合适的行为或回应。当你说“我不开心”，它们可以匹配说“多喝点热水”，但不理解什么是开心。如果想让它们分析不开心的理由，推测不开心之后的做法，就远远不够了。其中的差别可以形容为：人工智能使用语言，是匹配句子和句子。而人类使用语言，是匹配句子和真实内心的感觉。

那如何让人工智能学会读懂人类的情感和意图呢？

一种可能的路径是让它学习足够大的数据库，记录下人的足够多情感和行为的数据库。“深度学习”的一个特点在于必须要足够大的数据库，拥有一亿数据的“深度学习”比只有一百万数据的学习效果好得多。任何一个领域想要有所突破，首先都需要足够大的数据库。因此有人认为，21世纪最宝贵的资源不是石油，而是数据。

那我们有可能建立如此大的人类情感和行为数据库吗？理论上当然是有可能的，靠各种摄像头视频和人类自己拍摄上传的视频。但这里面最大的问题，或者说我个人的疑问在于，人工智能对于人类的情感和行为，能否进行“非监督学习”。

所谓监督学习，就是每一个数据由程序员做一个标注：“这个数据是好的。”“这个数据是猫。”“这个数据是男人因为嫉妒而殴打老婆。”不管数据本身是数字、棋谱、语言、图像还是视频，都需要程序员先给数据做标注，才能让人工智能学会这些标注。但是对于人类的情感与行为的超级数据库，一一识别和标注，实在是太过于繁琐困难的工作。而非监督学习就是完全没有人进行标注，只把原始数据丢给人工智能，看看它能学习出什么规律。我相信非监督数据在很多工程领域可以自动进行，因为步骤和成败的结果是自然可观测的。但是在人类情感与行为领域，如果不以人的解释做标注，如果没有人来诠释情境中发生了什么故事，机器能够学习和领会吗？我觉得很难。

另一种可能性，就是每个人和自己的人工智能助理之间的数据学习。由一个人不断告知人工智能所有情感和行为的前因后果：他碰到我，所以我不高兴；他没有记得给我买东西，所以我不高兴；餐厅的灯光太昏暗，所以我不高兴。若所有人都将前因后果事无巨细解释给人工智能听，就像父母将这个世界的机理解释给孩子，那么它肯定可以全都记住。如果足够详细，那它至少能学会这一个人的情感行为特征和心理因果特征。这相当于是每个人自己给行为数据做标记。这种路径在未来有可能成功，但取决于每个人是否愿意详细教它。

人工智能识别人类情感和意图，还有可能有更本质的困难，那就是人工智能无法以自己映照他人。

人类识别他人的情感和意图，并不是因为大数据学习。实际上人一生能遇见的人、交谈和交往的经历都是很有限的。人能够从少数经历中学到有关他人的很多情感和行为知识，能直觉感知他人的心境，不是因为人类头脑处理能力更快，而是因为人类能够以自己映照他人，将心比心。

最直接的映照，是镜面反射。人脑中有一些细胞，能够直接反射他人的行为意图，叫做镜像神经元。这种神经元不仅人类拥有，在较高级的灵长类动物头脑中也有。当一个人看见另一个人拿起锤子，自己即使手里没有锤子，与动手砸相关的神经元也会亮起来。

这种“读懂他人”属于生理性质的，大脑对他人的意图直接有反映。反应出来的意图，可以被观看者直接感受到。因此叫“镜像神经元”。人工智能可能生成这种直接的反映吗？缺乏生理共同点，应该不太可能。

另一方面，人们可以用自我观察映照出他人的情感和意图。面对一个情境的分析，人们可以把自己代入同样的情境，假想自己会有什么样的感情。能够让人悲欢离合的影视文学，就是因为人有代入感，才会让人喜爱。这一方面来源于人类的情感相似性，都有人之常情，另一方面人可以通过读取自己的心思过程，以己度人。

也就是说，人类对他人的理解，除了可以“外部观察”和“语言交流”，还能有“内部观察”。事实上，“内部观察”是如此强大，我们对于很多从来没见过的事情，只要代入自己想想，就能对其中的前因后果猜出个大概。现在的问题是，如果机器完全没有类人的情感，仅靠“外部观察”和“语言交流”，能达到同样的理解他人的效果吗？我不知道。

以上讨论，全都是建立在人工智能没有类人情感的前提下，只考虑技术上如何学习理解人类情感。那么人工智能是否有可能产生类人情感呢？这是另一个问题了，本文结尾的时候会有一些讨论。

仅靠“外部观察”能否理解他人的情感和意图，还涉及到另一个更客观的问题：大数据统计能否预知个体行为。

统计学永远只告诉我们系统信息，即便每个人都是完全不一样的随机数，在大数定理的保证下，也能呈现一些稳定的集体特征。然而这种稳定的集体特征并不能预测每一个个体，对“人类行为”的学习不等于对“个人行为”的学习。举个例子，如果一个人被人骂会怎样，这几乎是一个没法靠大数据统计学习得出答案的问题。有的人会忍，有的人会打，有的人会报告执法机构，有的人会暗中寻求报复，有的人会嬉笑，有的人会哭，每类几乎都有很多。在大数据统计研究中，相关性会非常弱，最终你仍然不知道某个具体个人会如何做出回应。每个人的不同反应取决于个性、场景、社会地位、个人经历、文化群体、习惯等等，而如果控制了所有这些变量，每个群体内的个体又会变得极少。外在条件相似的两个人面临同样的情境可能反应天差地别。所有这些个体差异，都给通过大数据统计预测个体行为带来很大的不确定性。人对他人最可靠的预测仍然来自对他人内心世界的理解。

当然，这多少算是题外话。我们还是回到主题。

第三个难点，自我表征的能力。

在上面，我们已经提到了自我观察问题，但还仅限于理解情感方面。那如果不涉及情感方面呢？机器学习纯理性知识总是无比强大的吧？

我们会看到，即便是在纯理性知识方面，目前的机器学习也不是完美无缺的，其中之一就是“元认知”问题。

目前，即便是阿尔法狗下棋天下无敌，也有明显的局限：

第一，它说不出自己在做什么。

阿尔法狗没有对自我的观察。它不知道自己正在“下围棋”，而只是根据输入数据计算胜利的路径，至于是什么游戏的胜利，它并不清楚也不关心，胜利了也不会高兴。

第二，它说不出自己为什么这么做。

阿尔法狗的“深度学习”，目前是一种“黑箱”学习。人们给它数据输入，看到输出，可是不知道中间发生了什么。人们觉得它奇招百出，不知道为什么，非常神秘。而它自己也说不出自己是如何思考的。

从某种程度上说，人工智能目前就《雨人》电影中演的那类自闭的孩子：一眼就数得清地上的牙签、能心算极大数字的乘法、背得下来全世界的地图，却答不出有关自己的问题。它只懂研究每秒300盘的棋路，却不知道“我正在下棋”这件事。

缺少元认知，首先是因为缺少“我”的概念。不知道有“我”存在，因此不能以“我”为主体表达事情。也因为没有“我”的意识，因此从来不会违抗程序员的命令，只会服从。同样也不能以“我”为中心思考高一层次的决策。

未来人工智能有可能形成“我”的概念吗？自我意识问题目前几乎接近于哲学探讨，还没有好的科学研究结论。我们到最后再做这方面的讨论。

姑且不论自我意识问题，现在只讨论，缺少元认知，对于变成超级智能有什么阻碍吗？为什么一定要元认知呢？阿尔法狗不用知道自己为什么赢，赢了不就行了？

最大的问题在于，缺乏元认知，有可能是抽象理解程度不够的缘故。

“自我表征能力”既涉及到自我，也涉及到表征，表征就是抽象表达信息的能力。

最简单的例子，对于同一件事的说法，最具象的表达是“10101010101010……”，稍微抽象一层的表达是“用某色棋子争夺地盘”，再抽象一层的表达是“下围棋”。最后一个层次不仅是对步骤的表达，更是对整个行为——我正在从事这个游戏——的表达，需要跳出游戏。每一层次抽象都需要一种更高层次的审视。

人类的认知特征中，有不少仍是谜题，其中一种就是强大的特征提取和模式识别机制。它如何产生，仍然有很多不解的地方。我们可以知道的是，大脑有多层调节机制，其最高层次调节具有很强的抽象。可能正是这种抽象能力让儿童可以非常快速地识别物体。小孩子可以快速学习，小数据学习，而且可以得到“类”的概念。小孩子轻易分得清“鸭子”这个概念，和每一只具体不同的鸭子，有什么不同。前者是抽象的“类”，后者是具体的东西。小孩子不需要看多少张鸭子的照片，就能得到“鸭子”这个抽象“类”的概念。人类非常善于制造各种层次的概念，有一些概念几乎所有人都懂，但实际上很难找到明确的定义、边界或现实对应物，例如“蔬菜”、“健康”、“魅力”、“爱”，甚至是“智能”。坏处是易成偏见，但好处是经常能够敏锐地把握大类的特征差异，用极为简化的概念把握信息。

可以说，人工智能和人类智能最大的差异或许是：真实世界与抽象符号之间的关联性。人工智能处理的是符号与符号之间的关系，而人类头脑处理的是真实世界到符号的投影。

抽象能力有什么重要的吗？阿尔法狗说不出自己是怎样战胜人类的，但是能战胜人类，不就够了吗？

抽象表征有两方面的好处。第一方面，可以为脑计算节省空间，每个抽象表征的引入，都让需要处理的问题大大简化，再次调用记忆也变得非常容易（例如，可以用“消费升级”来表征一段时期各种相关的市场变化信息），如果世界上的信息碎片是用碎片的方式记载，需要几乎无穷的记忆空间，抽象可以大大节省空间。

前面说过，以目前的“深度学习”方法调制的人工智能网络，学习新的本领会致使遗忘过去的本领。这可能是因为人工智能神经网络学习一件事情，最终是让整个网络的千百万个参数共同调至最优，整个网络记住这件事情。而动物大脑学会一件事情之后，长期记忆转移并不记载在原来的网络，而是转移到海马体，再次回忆是一种激活，回忆的位置发生在脑的各个部位。对人类回忆的研究也存在许多谜，但可以肯定的是，人是用一些高度抽象的模式记忆事情，而非全网络参数记忆。

另一方面，抽象表征的好处在于：尝试把握世界的真理，它的终极目标是用寥寥无几的抽象概念陈述万千复杂的现象，抓住其中相似的核心。

这里面有一个很本质的问题，那就是新知的产生。从大数据寻找历史数据的规律和预测的概率，确实能够让人做出行为优化。但是历史上让人类有深刻洞察、推动科技时代进步的发现，往往不是以统计预测，而是建立起抽象模型。

二者的差别是什么呢？统计预测是找各种变量的相关性，探寻经验概率预测方法。抽象模型是建立起一些不存在的理想模型，再来拟合数据。我们可以看一个故事案例。中国古代历来有司天监，年年月月日日观测天象，自汉唐以来，积累了海量数据。从地球的角度看，金木水火土五颗行星在天球上的运动非常不规律，于是天象观察员积累了非常多跟踪数据，建立了经验公式和预测方法，有很复杂的数学算法，还发展了许多额外因素提高模型的准确，包括试图建立火星和地上战争之间的联系等（不要笑，当前一些科学研究找的相关因素并不更靠谱）。兢兢业业、战战兢兢，中国的天象观察员不可谓不勤奋，他们积累的数据不可谓不多，经验预测方法也不能说差，但是他们从来没有跳出来，从更高维度审视，建立模型，来解释这些数据。于是，中国古代天象员没有一个人能建立开普勒三定律，也没有牛顿建立引力模型。李约瑟问题是一个方法论的问题。做大数据统计研究和预测的司天监，从来没有尝试去用抽象模型去表征。

人类历史上许多统计经验，但只有抽象模型才带来知识上的跃进。

上面就是目前人工智能认知发展上仍然存在的一些困难，我称之为人工智能认知发展的“三朵小乌云”。希望这“三朵小乌云”能在算法和技术上的提升之后得到解决，也更希望对这“三朵小乌云”的研究能够带来对人类大脑的更高水平认知。

上面说的很多局限，主要集中在“深度学习”算法，这是目前最强大的机器学习算法，也是很多突破性发展的来源。但它并不是唯一的算法。还有很多其他算法，例如决策树算法、朴素贝叶斯算法、符号算法等等。此外还有以往获得很多成功的“专家系统”类算法，就是把人类专家知识灌输给机器。本文没有分析这么多算法的优劣，主要是因为在“深度学习”快速发展之前，这些算法都面临过更多的困难和局限。但这并不意味着这些算法没有用了。事实上，未来人工智能想要发展，必定是多种算法要混合使用，找综合路径。在下一篇有关人类学习的文章中，我会再谈到贝叶斯算法。

——————————————————————————

如果帮助更多孩子能找到自己的专长方向，让孩子用热爱创造灿烂人生？这就是我们的少年成长计划。

少年成长计划在多个领域展开项目制学习，让10-14岁的学生广泛探索自己的兴趣和擅长，在12-18岁的关键时期精进发展，并广泛与各行各业打交道，让学生在热爱推动下，找到最合适自己的领域和舞台。

最近我们开启一系列有关不同职业方向的直播讲座，让家长和学生了解各领域工作状态、工作机会、人才需求，未来做出最适合自己的人生路径选择。这一系列职业发展直播都为群内直播，不公开对外。

想要更多了解“少年成长计划”，或者聆听职业方向的直播讲座，可以在我的公众号后台回复“理科”，加入“理科培养计划”群；回复“人文艺术”，加入“人文艺术培养计划”群。

微信扫码关注该文公众号作者

来源：景芳说

AI底层逻辑（1）：离超级人工智能到来还有多远

相关新闻