AI教母创业首秀：如何让AI在真实世界行动自如？ |【经纬低调出品】

8月前

“历史刚被创造出来，而世界上只有少数人知道。”在返程飞机上，李飞飞脑子中一直回荡着这样一句话。

就在一天前，还在休产假的李飞飞深夜接到一个电话后，便带着狂躁的思绪和焦灼的问题登上了当天最后一班飞机飞往佛罗伦萨，去见证一个具有历史意义的时刻——

当时还是多伦多大学研究人员的杰弗里·辛顿(Geoffrey Hinton)及其团队参加了ImageNet的竞赛，使用李飞飞的数据库来训练一种名为AlexNet的算法，达到了85%的识别精确率，夺得了ImageNet图像识别大赛冠军，也创造了计算机视觉识别领域的世界纪录。作为ImageNet创始人之一，李飞飞亲自赶到现场为辛顿团队颁奖。

“神经网络起死回生，比以往任何时候都更庞大、更复杂、更强大。”李飞飞如此兴奋的原因，不仅仅是看到辛顿二十多年的研究成果有了回报，而是她看到深度学习重获新生的希望火苗。

由此，「深度学习革命」拉开帷幕，各大商业公司巨头敏锐地嗅到了人工智能带来的商机，蜂拥而至。当时业界的共识是：“没有ImageNet，就没有现在的深度学习革命”。因此，李飞飞凭借着她发起的里程碑式的数据库ImageNet，获得了“AI教母”的称号，成为人工智能领域最重要的科学家之一。

曾经改变过历史的李飞飞，又一次站在人工智能进程中的重要转折点。不久前，她宣布以“空间智能”为核心，开启全新创业征程，意欲改变人工智能在现实世界中与人类交互的方式。对于这个创业项目，李飞飞保持了一贯的神秘感：“新的冒险总是在酝酿中，但更重要的是它们如何能真正推动技术向善，为社会带来正面的影响。”

作为本世纪AI重大历史时刻的参与者，李飞飞为AI飞跃式发展做了哪些贡献？在AI寒冬的年代，她如何在一片反对声中创建人工智能领域早期最重要的数据库ImageNet？李飞飞决心all in的空间智能，将会把人类和机器人带到何处？以下，Enjoy：

1 寻找北极星的她，意外推动历史的车轮

李飞飞的“空间智能”并非空中楼阁。想要搞懂空间智能，大家要先了解她的另一项开创性研究，也是开头提到的“ImageNet”。

“在寒冬中寻找北极星”，这便是李飞飞学术生涯的开端。上世纪90年代末，计算机领域风头正盛，李飞飞却选择了正值寒冬的人工智能领域。当时，整个人工智能领域陷入研究瓶颈，其中一个需要攻克的难题是：教机器像人一样识别图片中的物体。

众所周知，人类具有快速准确的图像识别能力，只要看到某些细节就能通过自己的丰富经验，自动填充其他部分，判断出这个物体可能是什么。那么，如果想让机器也做到这一点，是不是需要它们“看”过海量同一类别的图片即可？李飞飞是这一研究方向的支持者。她认为给机器呈现一个完整的世界，它们会开始尝试理解这个世界。

但她深入这一领域后，发现学术圈存在一个问题：大家都在苦心孤诣地研究更好的算法制定决策，却往往忽略数据。“如果算法使用的数据无法反映真实世界的状况，即便是最好的算法也无济于事。”

于是，她决心创建数据库，还确定了一个大胆目标，为每个物品类别搜集1000张不同的照片——1000张不同的小提琴照片、1000张不同的德国牧羊犬照片、1000张不同的抱枕照片，直到涵盖全部2.2万个类别，也就是一共需要大约2000万张图片。但这个数字只是最终成品数据库的情况。研究人员可能需要从数亿张照片，甚至10亿张照片中筛选，才能达到目标。

在她看来，ImageNet的使命是在每张图片中嵌入纯粹的人类感知，以期在整个图像集上训练出的计算机视觉模型能够展现出类似人类的智慧。使用机器可能会削弱这一目标。

但这项工作完全靠人标注，工程量浩大。按照既定的速度，ImageNet的完工需要整整19年的时间。当时，同事都不看好这个项目，李飞飞导师的导师，即李飞飞的“师爷”吉腾德拉委婉地提醒她：“科研的诀窍是跟随你的领域一起成长，不要太超前。”也有资深同事劝诫她，如果你专注做这个项目，可能申请终身教授职称都会有问题。那段时间，李飞飞听到的劝阻之声已经多得够她用一辈子了(可能下辈子也够了)。

没有充足研究经费、没有足够的帮手，但李飞飞团队最后依靠亚马逊众包平台，解决了人工标注的庞大工作量。2009年，包含320万张图片的ImageNet数据集诞生。有了图片数据集，就可以在此基础上训练算法，让计算机提升识别能力。

但320万的规模还是太少了。为了让数据集不断扩充，李飞飞举办图片识别大赛，参赛者自带算法识别数据集中的图片，准确率最高者获胜。但深度学习路线在当时并不是主流，ImageNet只能默默“挂靠”在欧洲知名赛事下面，才能勉强凑够参赛人数。而后为了提升ImageNet的名气，李飞飞举办了ImageNet 大规模视觉识别挑战赛 (ILSVRC)，但依旧收效甚微。

2012年成为了一个至关重要的转折点。这年9 月30 日，一个名为 AlexNet 的算法成为了新一届ImageNet 大规模视觉识别挑战赛的冠军。而AlexNet采用的算法是计算机视觉领域的老古董——神经网络算法。到2017年，即比赛的最后一年，计算机识别图像中物体的错误率已从2012年的15%降至3%以下。至少从某种程度上看，计算机已经变得比人类更善于观察。

ImageNet推动了深度学习和计算机视觉的快速发展，为人工智能的后续突破铺平了道路——它是自动驾驶汽车、面部识别、可以识别物体（并告诉你它们是否出售）的手机摄像头有突破性进展的根源。

同时，作为ImageNet的创始人，李飞飞开放了ImageNet数据库，免费提供给全世界的科研团队用于计算机图片识别训练，这就引发了人工智能的井喷式发展，让AI从实验室走到了大众的视野。由此，一种被称为神经网络的算法，一种被称为图形处理单元的专用硬件，以及庞大的数据集，如ImageNet，这三者的结合共同开启了现代人工智能的新纪元。

2 如何让机器人在真实世界行动自如？

ImageNet的诞生是实现真正机器智能的第一步，它让计算机可以直接辨认出物品和人。但机器能看见远远是不够的，真正的“看”是为了行动和学习。

“自然界通过「空间智能」创造了一个良性循环，将视觉和行动联系起来。当人类处在三维空间和时间中采取行动时，可以通过观察来学习如何做得更好。若想推动人工智能超越其现有的界限，我们所追求的不再是仅限于视觉识别和语言交流的智能体。我们渴望的是那些能够行动的人工智能，能够主动介入并与我们生活的世界互动。”这便是“AI教母”李飞飞决定创业的原因之一。

在温哥华TED大会的演讲中，李飞飞提到，当前最先进的算法已经能够合理推断图像和文字在三维环境中的呈现方式，并据此作出行动。这种算法所依托的便是所谓的空间智能。“大自然中存在着一种视觉与行动之间的良性互动，而空间智能正是这种互动的核心。”李飞飞再一次强调。

为了让大家更好理解空间智能这一概念，李飞飞在演讲中借用了一张极具启发性的图片：一只猫正伸出爪子，意图将玻璃杯推向桌子的边缘。

当人类看见这一照片后，可以在极短时间内对玻璃杯的几何构型、它在三维空间中的位置，以及它与桌子、猫和其他物体的相互关系进行综合评估的能力。在此基础上，大脑能够预测接下来可能发生的情境，并采取相应措施来预防潜在的风险。譬如，人类可能会迅速伸手去接住可能会掉下来的杯子。而李飞飞的目标是赋予AI类似的能力，训练计算机和机器人在3D世界中行动自如。

因此，空间智能是让机器可以像人类一样能够高效地处理复杂的视觉数据，精准地作出预测，并基于这些预测迅速采取行动。总之，空间智能是比传统视觉识别更高级的视觉智能。

不过，“空间智能”需要基于世界数据、多模态数据的人工智能模型架构，应对复杂多变的物体识别、场景感知等挑战。因此，模型需要大量高质量标注数据进行训练，对各种噪声、遮挡等情况保持鲁棒避免误识别，进行图像、文本等多模态学习等。

可见，想要AI将视觉化为洞察，将看见转为理解，最终指导行动，这是一件充满挑战的科研探索。而李飞飞却将其视为“解决人工智能难题的关键拼图”，并将空间智能看作下一个指引她的“北极星”。当然，李飞飞为了攻克这一技术难关，也做足了准备。

早在2022年，李飞飞在《寻找计算机视觉的北极星》论文指出，在ImageNet和目标识别取得成功之后，计算机视觉领域还有许多令人兴奋的研究方向和挑战，比如具身智能、视觉推理、场景理解等，这三个便是CV（计算机视觉）发展的三颗“北极星”，也有可能成为“空间智能”发展三大重要基石。这里提到的「北极星」指的是研究人员专注于解决一个科学学科中的关键问题，可以激发研究热情并取得突破性的进展。

用空间智能和语言智能为具身智能赋能，将开启令人兴奋的可能性。在具身智能领域，李飞飞带领的研究团队曾在2023年推出一项新成果VoxPoser，利用大型语言模型（LLMs）和视觉语言模型（VLMs）来驱动机器人。

在大模型的支持下，机器人不仅能够与环境有效地交互，而且能够在无需额外数据和训练的情况下完成各种任务，如绕过障碍，开瓶子、按开关、拔充电线等。

为了解决真实场景中噪声和物体遮挡等问题，今年1月份，李飞飞公布了一种名为 Wild2Avatar 的新模型，该模型即使在有遮挡的情况下仍然能够完整、高保真地渲染人体。大多数研究都是在理想状态下渲染3D人体，需要清晰、无遮挡的场景，但在真实场景下常常会有障碍物可能会阻挡摄像机的视线。

Wild2Avatar提出了遮挡感知场景参数化，用于将场景解耦为三个部分——遮挡、人物和背景。同时，研究还设计了广泛的目标函数，以帮助强制将人体与遮挡和背景分离，并确保人体模型的完整性。

想要教会机器人在真正复杂的环境中观察和行动，还需要创造比真实世界更多的数据。今年3月，李飞飞参与的一项研究工作推出了 BEHAVIOR-1K，这是一个以人为中心的机器人的综合模拟基准。BEHAVIOR-1K 包括两个组成部分。第一个是 1000 种日常活动的定义，基于 50 个场景（房屋、花园、餐馆、办公室等），有 9000 多个带有丰富物理和语义属性注释的对象。第二个是 OMNIGIBSON，这是一种新颖的模拟环境，通过逼真的物理模拟和刚体、可变形体和液体的渲染来支持这些活动。

这些都是为了让机器人观察、学习、行动，那么，机器人如何实践中不断提高其观察能力呢？这是涉及到一个视觉推理的概念。视觉推理包括三大类：三维关系理解，即理解二维场景中的三维空间关系，如理解“将左边的金属杯拿回来”的指令；社交智能，即理解人物间的关系和意图，如判断人物间的亲情关系或预测人物行为，一个女人搂着腿上的小女孩，两人可能是母女关系，一个男人打开冰箱，他可能是饿了；认知功能，计算机视觉不仅是感知，更是认知，需要理解场景的意义和背后的推理过程。当然，执行这些指令需要比视觉更多的东西，但视觉是其中的重要组成部分。

要知道，大自然历经数百万年的进化才赋予了生物空间智能。生物依赖于眼睛接收光线，在视网膜上形成二维图像，随后大脑将这些数据转化为三维信息。那么机器在这方面有何进展？

不久前，谷歌的一组研究人员才开发出一种算法，能够通过拍摄一系列照片，将它们转化为三维空间模型；而斯坦福大学的教授和学生也开发了一种算法，仅凭一张图像便能生成无限逼真、可供观众探索的三维空间；李飞飞与学生创造了一种算法，能够将输入的二维图像转换成三维形状。一步一步地，机器人开始理解真实世界，而这或许就是李飞飞想要实现的目标。

正如李飞飞所感慨的那般，“随着空间智能的加速进步，一个新时代在这个良性循环中正在我们眼前展开。这种循环正在催化机器人学习，这是任何需要理解和与3D世界互动的具身智能系统的关键组成部分。”如果AI能够精确理解三维物理世界的规则，并借助像人一样灵活的具身智能完成动作。那么，空间智能则可以看作是AI领域的又一次“大革命”，也是一个让计算机和机器人释放潜能的寒武纪大爆发开端。

3 她看见的世界和她改变的世界

身处男性占主导地位的AI领域，李飞飞如何一步步成为世界级顶尖科学家？

1976年，李飞飞出生在一个知识分子家庭，曾就读于重点中学成都七中。李飞飞在传记《我看见的世界：李飞飞自传》中直言，父母的性格各自有一部分对她产生影响。

父亲是工程师，性格天真散漫。李飞飞出生那天，父亲姗姗来迟，只因他一时兴起，跑到公园观鸟，忘了时间。给女儿起名“飞飞”，也是观鸟时想的；而母亲热爱文学，会带着女儿读鲁迅的作品以及波伏娃《第二性》、海明威《老人与海》等西方经典。

在16岁那年，她跟随父母举家移民到了美国，并在美国的新泽西州定居。年少时期，她便痴迷物理，连骑自行车转弯时都思考加速度和角动量的变化。到了美国，李飞飞因语言不通成绩不佳，但数学和物理两门课受到的影响很小。

图源：Stanford University

李飞飞对数学和物理的热爱也成为了人生第一个转折点。因为担心学费太贵，李飞飞大多申请的是公立和社区大学，但为了内心的仪式感才申请了美国顶级名校普林斯顿大学。没想到，普林斯顿大学看中了SAT（类似美国高考）数学考了满分的李飞飞，主动伸出橄榄枝为其提供全额奖学金。

她在回忆录中这样描述自己当时的大学生活：“对我来说当时的生活就像‘双城记’——帕西帕尼和普林斯顿。周一到周五，我在普林斯度学物理。周末我回到帕西帕尼给家里的干洗店帮忙，接待那些来取送衣物干洗的人。”

1999年，李飞飞以优异成绩获得普林斯顿大学物理学学士学位。大学毕业后,李飞飞面临生活压力和学术抱负的抉择，陷入了两难境地——母亲身体状态欠佳，家庭债务更让她压力倍增，而华尔街巨头提供的高薪、福利、医疗可以帮助家庭解决困境，但需要她放弃科学。

当6位数年薪和健康保险摆在眼前，母亲却阻止了李飞飞的决定。李飞飞曾在自传复现了那段拯救了她人生的话：

“飞飞，我们走到这一步，不是为了让你放弃。我了解我的女儿，她不是一个咨询顾问，她是一个科学家。”

最终，她选择前往西藏进行藏药研究，以“藏医药学与西医学医理的比较”作为课题，获得了普林斯顿的Martin Dale1953奖学金，也为自己的研究拿到了经费。完成一年的研究，李飞飞回到校园内继续自己的学术生涯，相继在加州理工获得了硕士和博士学位。她成为加州大学首个人工智能和计算神经科学方向的博士，开始了针对图像识别技术的研究，由此开启了她与AI的不解之缘。

从选择改进和扩展训练AI的数据这一冷门方向开始，李飞飞无意间敲开了AI世界的大门——作为现代人工智能的关键催化剂 ImageNet 创建者，李飞飞一跃成为了世界顶尖的华裔女AI专家；她曾在33岁便获得斯坦福终身副教授职称，成为首位担任斯坦福大学人工智能实验室主任的女性；她是美国三院院士、前谷歌副总裁、谷歌智能云及人工智能及机器学习首席科学家……这些耀眼的头衔，都离不开她一系列开创性成就。

如今李飞飞选择“清零”，开启创业的新征程，寻找下一个改变人类历史的“北极星”。从 2024 年 1 月开始，在 LinkedIn 上，她将自己目前的工作列为“新手”和“新事物”。

曾经推动历史的李飞飞成为创业新手，正在试图创造一个新事物、新未来——在宇宙诞生的初始阶段，无尽的黑暗笼罩着一切，直至首批生物逐步演化出了视力。那一刻，生命的光辉得以绽放。在李飞飞看来，空间智能不仅仅是让AI看清这个世界，更能使AI超越当前能力，与人类和3D世界互动，提高生产力和增强人性。也许，一个类似的转折点即将在计算机与机器人领域上演。

提到李飞飞，总是不免要提起“人工智能教母”这一称号，而此称号源自「人工智能教父」称谓，通常用来致敬三位在计算机科学领域取得卓越成就的开拓者 —— 杰弗里・辛顿（Geoffrey Hinton）、约书亚・本吉奥（Yoshua Bengio）和杨立昆（Yann LeCun）。他们因在 AI 技术方面的突破于 2018 年获得计算机界的最高奖项——图灵奖。

对此，李飞飞展现出开放的态度：“我从未自诩为任何事物的教母，但当这个称号赋予我时，我确实对其进行了反思。随后，我意识到，既然男性可以被称为各种领域的教父，那么女性也完全可以被誉为教母。因此，我欣然接受了这个荣誉。”

她的出现让科学领域多了一抹亮色，不再只有“帽衫男”这一典型形象。更为关键的是，李飞飞的求学、科研的经历，能代表很多觉得自己在AI领域没有发言权或找不到认同感的人——包括移民、年轻女性、各行各业的人，他们不一定是典型的硅谷AI人士。李飞飞的故事可以传达一个声音，给更多人带来更多力量。

李飞飞身体力行地为更多人发声。“尽管我们看到越来越多的女性和不同背景的人进入科技和人工智能领域，但我们也看到，他们的声音往往被忽视或低估。”因此，她希望能成为一个催化剂，激励更多女性站上科技的舞台，共同塑造这个行业的多元未来。

References：

1.TED:With spatial intelligence, AI will understand the real world

2.quantamagazine:By Exploring Virtual Worlds, AI Learns in New Ways

3.Stanford University:BEHAVIOR-1K: A Benchmark for Embodied AI with 1,000 Everyday Activities and Realistic Simulation

4.USNews:Exclusive-Stanford AI Leader Fei-Fei Li Building 'Spatial Intelligence' Startup

5.Wired:Fei-Fei Li's Quest to Make AI Better for Humanity

也许你还想看: