具身智能超级对话：人工智能如何引领机器人革命

在“具身智能超级对话：人工智能如何引领机器人革命”线上论坛，我们非常荣幸的邀请到了四位优秀的企业家和学者探讨具身智能领域的热门话题。四位嘉宾包括Covariant的联合创始人兼CEO 陈曦（Peter Chen），UCSD助理教授王小龙，清华大学交叉信息研究院助理教授许华哲，和云深处创始人朱秋国。我根据访谈内容整理了如下文字记录，如果你想直接收听嘉宾对话，也可以小宇宙搜索SOTA！，或点击下面音频链接进行收听。

1. 嘉宾自我介绍

Peter Chen：我的名字叫Peter，也可以叫我中文名陈曦。我是Covariant的Cofounder和CEO。在UC Berkeley PHD期间，我主要关注的领域是强化学习在机器人方面的应用，同时也涉及到生成模型。PHD之后，我在OpenAI的早期加入了团队，大概在16年左右，当时OpenAI可能还只有十个人左右。我伴随着OpenAI的成长一段时间，在17年底与我的PHD导师Pieter Abbeel和其他两位合伙人一起离开OpenAI，创立了Covariant。

创立Covariant的原因其实非常简单，就是我们在OpenAI已经能够看到大模型（large foundation models）的趋势，我们认为大模型在机器人领域也必定是未来的发展趋势。我们的思考是，要把机器人的 foundation model 做好，必须拥有自己的数据，并且能够开发出实际可用的机器人应用，而不仅仅是实验室里的技术。于是，在17年的时候，我们创立了Covariant，到现在已经过去了六年多的时间。我觉得与当时的很多预测很相符，发现 foundation model 的方法在AI开发中确实得到了非常大的验证，尤其是在语言和图像等领域的发展速度比预期中要快得多。这也为机器人领域带来了很多机会。

许华哲：我是清华大学交叉信息研究院的助理教授许华哲。之前在斯坦福大学进行博士后研究，博士阶段在加州大学伯克利分校读博士。我的研究方向主要是今天的主题——具身智能，更具体地包括灵巧操作、触觉感知以及利用强化学习和模仿学习算法来提高具身智能的泛化性和学习效率。

我更希望与大家一起探讨智能未来的发展，从学术和产业的角度共同思考，看看是否有可能让智能真正实现落地。在当前这个时间节点，我们都期望能够见证智能技术实现落地应用。

王小龙：我是王小龙，目前是加州大学圣地亚哥分校（UCSD）的教授，之前在卡内基梅隆大学（CMU）读PHD和之后在UC Berkeley读博士后。在读博士期间，我主要从事计算机视觉的研究，后来逐渐转向强化学习和机器人相关领域。在UCSD，我建立了自己的团队，致力于机器人领域的研究。实验室的研究涉及到机器人视觉和机器人控制等多个方面，我们努力在这些领域做交叉研究。

目前实验室的研究方向主要分为两个方面，一部分集中在视觉领域，另一部分则专注于机器人技术。机器人方面，我们侧重于研究机器人手部操作和腿部移动的学习（Learning）和低层控制（Low-level Control）。我认为这些方面的进展在很大程度上依赖于硬件的发展。对于国内的云深处等公司，他们在硬件领域的进展令人瞩目，我们的研究也受益于他们提供的硬件支持。未来，我期望不仅能够看到硬件方面的发展，还希望看到硬件和软件之间的联合开发进展，相信在这个方面，国内有很大的优势。

朱秋国：我是浙江大学的朱秋国，我在浙江大学完成了本科、硕士和博士的研究，主要聚焦在人形机器人领域，特别是基于模型控制（MPC）的足式机器人运动控制（Locomotion）方面的研究。在博士毕业后，我注意到这个领域发生了很大变化，在指导学生的过程中，我们也开始尝试基于强化学习（Reinforcement Learning）的控制研究，并取得了一些新的进展。

在2017年，我成立了云深处科技。当时，波士顿动力在机器人领域取得了迅猛发展，而在国内，让机器人走向室外仍然是一个相对困难的问题。因此，我们决定在国内建立一家公司，致力于在行业级应用中开发产品。我们也涉足一些教育科技和科研平台。目前，我们所面临的挑战之一是如何在面向行业应用中稳定可靠地应用基于学习的方法。

2. 2023年具身智能非常火，背后的驱动力是什么？底层技术有什么确定性的突破？

Peter Chen: 人工智能和机器人是一个庞大的话题，可以根据应用场景进行划分，比如以机械臂为中心的机器人操作（Manipulation），或者以移动控制（Locomotion）为特征的机器人。不同的应用场景之间有许多相似之处，同时也存在一些差异。在人工智能的发展中，我们解决了许多低层次问题，如运动控制等低层次问题，同时也涉及到一些高层次的问题，比如如何给机器人提供一个抽象任务描述，让它能够自主完成。涵盖的面比较广，我们以机械臂操作为中心，从这个角度来回答问题。

从我们这个角度看，硬件方面在过去几年并没有太多的核心突破，尤其是在机器人操控方面。更多的突破来自于模型和智能方面。这一突破主要体现在两方面，一方面是对于那些相对底层控制（Low Level Control）难题的解决，以前可能需要基于模型的方法，现在可以使用基于学习的方法。

另一方面是对于一些上层思维的问题，这与大型语言模型（如GPT等）有一定的关联。这些大型语言模型可以理解抽象的任务描述，甚至是不完整的描述，并将其转化为机器人可以执行的任务。这是一种以前不存在的能力，对于高层次推理（High Level Reasoning）来说，过去一年取得了巨大的突破。从技术和学术的角度来看，这是一个很大的进步。然而，回到问题本身，为什么机器人领域突然变得如此热门，我认为这只是因为人工智能本身变得更加热门，而机器人恰好是人工智能的一个直观应用场景。因此，它在相关领域变得更受关注，并不仅仅是因为底层技术有很多突破。

许华哲：为什么具身智能变得如此火爆，我认为这是一个必然趋势。在人工智能的追求中，构建智能机器人是一个终极目标，只是在距离实现还较远时没有太多人关注。我们现在看到的最主要的变化是，人工智能的各方面技术都取得了很高的成熟度。在我们读博士时，人工智能是按照模块划分的，每个研究组负责不同的任务，如图像物体分割、视频分类和自然语言处理等。但现在的情况是，一个博士同学甚至一个本科同学都能很快地掌握各个模块的知识，完成相关任务的研究，比如SAM模型。当人工智能达到这样的成熟度时，对智能机器人的追求就变得热门了。

另外，大模型给人们带来了一种信仰和看到未来的信心。大模型，虽然主要用于处理语言，但它展示了transformer这种结构的威力。它能够吸收大量数据，带来质变。这种结果让我们产生了幻想，如果有足够的机器人数据，大模型是否也能带来质变，就像它解决了自然语言处理一样。虽然，目前的答案可能还不能完全解决，无论是RT1，RT2还是RTX，但至少给了我们一种信仰。

我和Peter在硬件方面有一点小小的不同看法。虽然在技术上可能没有本质突破，但硬件的价格确实有所下降。最初我们实验室使用的Franka机械臂可能要十几万，但现在国内一些厂商的两公斤载重机械臂已经能卖到八九千。虽然它在精度和力反馈等方面不如Franka。对我来说，一个价值8000块的机械臂，我甚至敢用它进行真实环境中的强化学习，这对在线强化学习来说是一个重要的变数。硬件成本的下降，极大降低了真机实验的门槛。

王小龙：具身智能火起来的原因很大成分在视觉和语言方面取得了很多成功，激发了大家将这些成功应用于机器人领域的热情。机器人需要从感知到行动，这是一个非常直观而合理的发展方向。记得几个月前，我问Pieter Abbeel为什么他现在从事NLP，他说everything is the same，就是语言、机器人，都是AI，AI的成熟度将各个领域紧密联系在一起。但机器人作为一个复杂的系统，涉及硬件和软件，要使其真正work还有很多挑战。将AI技术直接迁移到机器人上仍然是一个困难的任务。

我也觉得AI在视觉和语言方面取得了很多成功，所以人们更希望将这些成功应用于机器人。但是机器人作为一个复杂的系统，涉及到硬件和软件，其中有很多暗坑。在过去的几十年里，相较于计算机视觉，机器人领域的发展并没有那么大。这可能是因为机器人更注重于强大的演示效果，很多人做paper或者project，目的是为了展示一个漂亮的demo。这样的demo在如今AI横行的时代显得更加重要，尤其是视频演示技术越来越成熟，让人们更容易被吸引。但是在这些漂亮的demo背后，是否真的能work，这是一个值得思考的问题。我觉得我们在这个领域需要更多的研究，以理解背后到底发生了什么，而不仅仅是追求漂亮的外表。

在底层控制方面，我们确实看到了很多基于学习的方法取得了越来越好的效果。这是因为传统的控制方法难以解决的问题，现在通过学习方法能够取得更好的效果。无论是在仿真开发方面，还是在软硬件的普及方面，我们都看到了很多积极的信号。像云深处等公司，他们降低了机器狗等硬件的价格，使得更多人能够购买相似的硬件平台，从而进行类似的实验。这让机器人研究也能够进行更多apple to apple的比较。硬件方面的突破和成本的降低使我们能够进行更多的知识积累，并进行更多的增量努力（incremental effort）。这是一个让人兴奋的方向。

朱秋国：我想强调一下王老师提到的关于demo的观点。因为demo做得太好，吸引了很多人的关注，尤其是投资机构，生怕错过这个风口，因此纷纷投资进来。这可能是机器人领域变得如此火热的主要原因。

从产业的角度来看，像特斯拉的人形机器人引起了全球的关注。大家都在思考人形机器人未来能够完成什么任务，以及其智能体现在哪里。从技术的角度来看，例如ChatGPT的出现，大家开始想象AI与机器人的结合是否能够解决这些问题。这种想象的空间推动了整个行业的发展。虽然技术上存在很多demo，但要将其产业化，需要时间。然而，这是一条可行的道路。我认为这是一个受到关注的问题。此外，在技术层面上，强化学习是一个关键的方向，如何通过强化学习来提高机器人的技能水平，我们可以看到这方面有很快的迭代。在这个领域中，我们正在深入地体会到，通过这些学习方法，复杂的机器人系统能够完成许多传统控制方法无法实现的任务。特别是对于行走这样的任务，不需要精确的控制，它扩展了机器人可以适用的范围。从产业的角度和技术的角度，大模型与小模型的融合给大家提供了更广阔的想象空间。这也是机器人变得如此火热的原因，这是我个人的观点。

Peter Chen：以前解决相对简单的AI问题可能需要很多时间，比如解决分割问题或进行简单的语义分析，都可能需要大量的时间。然而，现在你可以轻松地使用像SAM这样的模型解决这些问题。我认为不论是大型语言模型还是像SAM这样的模型，它们本身已经在大量不同的任务下进行了训练，使得它们相对容易解决新问题。我认为这部分体现了foundation model的能力。这种AI的进步对机器人领域有着特别大的一个意义，因为机器人通常需要解决许多琐碎的AI问题，而现在使用已有的foundation model可以降低很多工作量，使得解决这些问题变得更加容易。这并不是说你能够解决之前做不到的事情，而是说你之前可以解决的事情现在变得更容易了，对于机器人来说是一个非常大的改进。

王小龙：作为具有计算机视觉背景的人，我不得不提一下SAM。如果将SAM视为一个视觉基础模型，其实存在一些误区。首先，SAM的数据库标记了很多掩码，然后你发现使用10%的数据进行训练的性能几乎相当。因此，SAM的数据库验证了一个问题，即本地化分割不需要大量数据，实际上这是一个非常简单的问题。因此，它可能更倾向于反向的情况，它并没有证明这个基础模型。而且，很多人可能不知道的是，SAM这个模型对语义分割和实例分割等方面实际上效果不佳。因此，我认为它可能提供了一种新的问题解决思路，但本质上并没有真正解决很多问题。然而，它的一点优势在于它能够方便地供大家使用，即大家都可以直接使用它。但它肯定不是解决许多问题的最佳方法，因此这一点也需要注意。

Peter Chen：关于 SAM，它并不是一个完整的基础模型，不能解决视觉领域的所有问题。正如小龙所说，在分割方面，它的能力相对较弱，而与其他模态相结合的能力也相对较弱。至少在原始论文中，它在与文本基础的分割（如与 CLIP 结合）方面表现并不出色。我想说的是，SAM 是一个非常具有延展性的表达方式，例如后来一些工作中，像 Lisa 将大型语言模型与 SAM 结合在一起，你会发现实际上可以通过克服一些局限性来很好地解决问题。

我同意它并不是一个终极的视觉基础模型，但我认为它能够给人一些思路，即如果我不只是在单一任务上进行训练。因为这种本地化加分割确实是一个不够完整的表达方式，但它仍然非常灵活。如果你看一些将大型语言模型与 SAM 结合的工作，你会发现通过很少的训练，它能够获得一些其他模型所具有的各种卷积能力，这本身是相当强大的。

王小龙：关于 manipulation 的部分，抓取并不总是需要非常精确，尤其是在使用多指手抓取物体时，不需要非常精确的控制，仍然可以有效地抓取物体。当涉及到多个接触点时，问题变得更加简单，甚至可以通过粗略的抓取来完成任务。我们看到了很多有趣的应用，比如用手抓取软物体，比如抓毛巾，相对于夹爪，多指手抓取毛巾非常容易。因此，在抓取方面，我认为与 locomotion 有很多共同之处，都可以通过学习来优化，建立一个更好的模型。

3. Learning based vs model based

王小龙：我相信大规模真实机器人数据肯定是非常有用的，但还有一点我一直想推动的是仿真数据，然后Sim2Real在做一些事情。通过在模拟中进行大规模操作，我认为这也是一种大规模数据的形式。这是在机器人社区中一个较大的遗漏点，可能在于大家普遍觉得Sim2Real Gap这个问题太难了，先做simulation，再做real太难了，很难解决现实问题，远远不如直接在实际环境中收集数据并进行改变。但我认为我们可以逐渐投入更多努力来改善这个情况。

许华哲：如果我要下注十块钱的话，我肯定会支持基于学习的方法。人工智能的发展让我们看到了数据永远战胜人类智慧的趋势。或者说，运用数据的智慧永远大于直接解决问题的智慧。从早期无法解决下棋，到使用搜索方法可以下国际象棋，再到围棋，都被强化学习通过在模拟环境中大规模训练所颠覆。正如王老师刚刚提到的，在模拟中进行大规模操作也是一种大规模数据的形式，通过强化学习，数据的堆积解决了以前看似不可挑战的问题。

现在面临的挑战是机器人的具身智能，我相信最终的解决方案一定是基于学习的。当然，我认为在这里提到的基于模型的控制可能是指狭义的模型，即通过人的物理知识或机械知识对机器人建模。但在更广义的模型控制中，模型也可以是通过学习得来的。在模型基础强调数据效率较高的同时，我认为我们也可以学习这个模型，使其更具智能。

在没有数据的情况下，通过基于模型的方式让系统在一定程度上解决问题，运转起来，然后使用采集到的数据，通过基于学习的方式来改进机器人的运行。这就像一个人类从小到大的学习过程一样，随着时间的推移变得更加智能。强行走传统的模型基础方法，可能对人力资源的需求较高，而学习基础方法则更容易实现大规模扩展。

Peter Chen：首先，我并不认同在这个问题上存在着基于模型和基于学习的对立。在我看来，在任何AI领域中，对立的核心在于数据驱动与基于编程的方法。传统的控制算法或优化算法可以被视为基于编程的方法，通过人类对世界的认知来实现某种形式的智能。

至于未来机器人学中是数据智能还是编程智能更为重要，我会像华哲一样，我会选择支持数据智能，并且我愿意把赌注加大，甚至可以无限。特别是如果将时间范围放在越远的未来。在这两者之间，我认为它们并不是对立的，任何商用的机器人系统都可以实现这两者的融合。在整个机器人系统中，并不要求全部采用数据驱动或全部基于编程，而是可以实现灵活融合。

这对我来说更多是一个产品和工程的问题。正如华哲提到的，基于数据的学习在于需要足够大的数据集，同时还涉及响应时间、功耗等工程约束。在我们看来，最好的方法是根据实际产品需求和工程约束来决定在机器人系统中哪些部分采用数据驱动的智能，哪些部分采用基于编程的智能。一个聪明的方法是确保你有一个良好的角色映射，以便随着算力和数据集的增长，逐渐将整个机器人系统中的智能向数据智能方向移动。这样做将使系统变得更加灵活、性能更高、更可靠。我认为这并不是一个哲学上的对立关系。

朱秋国：我非常认同基于模型的控制和基于学习的控制并不对立，他们更像是能力或算法延续的一个过程。应该从产品的角度来看待这个问题。我认为在选择使用哪种方法时，关键是考虑其适用对象和应用场景。举个简单的例子，在AI出现之前，工业领域，甚至火箭领域的运行可能仍然使用传统模型。比如，像马斯克发射的火箭，依然可能采用传统的模型进行控制。

Peter Chen：确实在降落控制算法方面，他们采用了更传统的模型控制方法。

朱秋国：在流程工业控制领域，大量的控制算法可能面临采集大量训练数据的困难。在这种情况下，仍然可能采用基于传统方法的控制算法，通过传统方法进行故障诊断。

在机器人领域，基于学习的方法可能是一个更好的趋势，所以要需要区分方法适用于的对象和场景。从机器人的角度来看，我认为基于学习的方法与传统方法并不对立。我要明确一下，我已经积极拥抱并加入了这个大趋势，因为我们在这个领域已经感受到了传统模型存在的问题和局限性。通过更好的基于学习的方法，我们能够取得一些效果。我认为在评估采用何种方法时，需要区分应用的对象、场景和产品。在机器人领域，我个人认为未来的趋势一定是AI，一定是基于学习的方法。

4. 如何解决机器人可靠性的问题

朱秋国：从产品的角度来看，确保交付给客户的产品具有稳定性和可靠性是必须要做的一项工作。但就算我们做了，是否能够达到99.99%的可靠性目标也是不确定的，即便采用基于模型的方法。在产品开发的过程中，存在一系列的规范和流程，包括对硬件和软件的测试、出厂测试以及长期使用的可靠性测试。这些流程是如何形成的呢？这是我们在工业革命以来积累的一系列经验，我们遵循这些规范可以制造出高质量的产品。

不过根据基于学习的方式，现在刚才王小老师提到的，可能会存在一些不透明的问题和一些潜在的坑。我认为目前从应用的角度来看，这方面可能还没有那么成熟，在一些小范围的领域里可能会有一些应用。至少在目前阶段，这可能是一个具有挑战性的领域。

Peter Chen：你提到的稳定性和可靠性问题确实很重要，尤其是在将一个令人印象深刻的演示转化为为客户提供价值的产品时。在这个过程中，最大的挑战之一是如何实现99.99%的可靠性。这个问题并不是由引入基于学习的方法引起的，相反，很多时候你必须使用基于学习的方法，因为对于一些问题，使用基于模型的控制或其他传统的编程方法可能根本无法实现。

在现实世界中，多样性非常庞大，如果你的智能没有足够的适应性，即使是基于模型的控制，或者其他一些简单的视觉模型，可能都无法实现高于90%的可靠性。因此，基于学习的方式并不是让我们实现高可靠性和高成功率的一个瓶颈，实际上它是我们最有效的工具之一。至于如何真正做到这一点，并没有一个简单的方法，但我可以分享一些我们发现的比较好的一些思路。其中一个思路是依赖于迁移学习，也就是说，对于单一客户，你的数据集可能有限，但如果你能够将不同客户之间的数据集合并在一起，你就能够得到更大的数据集，而在进行机器学习时，拥有更大的数据集通常意味着更好的泛化性能，从而能够实现更高的成功率。

另一个重要的思路是不能将产品视为一次性的产品。对于基于人工智能的机器人技术，它必定是一个不断更新、不断学习的系统。根据在实际生产环境中遇到的问题，收集的数据可以用于模型的持续训练，使其在时间维度上不断自我进步和学习。通过实现这两点，当然还需要在技术上有一系列的突破，但如果能够成功实现这两个大方向，根据我们的经验，就可以通过基于学习的方法实现可靠性。

许华哲：可靠性确实是基于学习的方法最大的挑战之一。从产品的角度来看，确保机器人在交付给客户时的稳定性和可靠性是至关重要的。但如果在解决问题方面，没有其他方法可行的情况下，我们需要忍受一些不可靠性的风险。举例来说，对于家居机器人这样的任务，传统的基于模型的算法或编程方法可能无法解决所有问题，而基于学习的方法可能提供一种可行的解决方案。

解决问题时需要考虑场景和任务的规模。可以将任务划分为大圈和小圈，其中小圈的问题可以使用传统的控制方法解决，而大圈中的问题可能需要更灵活的学习方法。我的经验是，所有能够通过模型的方法去解决的问题，对基于学习的方法来说，只要有足够多的数据，也是一样可以解决的，尽管会有一些成本。

基于学习的模型有黑盒的问题，而神经网络更倾向于是一个黑盒子。面对基于学习的模型，我们目前的做法是给他大量的数据，无论是从real里采，还是在sim里采集，当有了数据的时候，可以让他在迭代的过程中变得越来越好，就像我们对人类的容忍一样。

王小龙：我认同Peter关于可靠性的观点。可靠性不仅仅是学习方法独有的问题，而是涉及各个领域的共同问题。在评估可靠性时，我们可以使用一些手段，如在分类任务中研究不确定性，包括置信度和估计的可信度。这在机器学习中是一个广泛探讨的方向。在AI安全和强化学习中，引入安全约束也是一个解决可靠性问题的途径。

对于IOM（Interactive Object Manipulation）等领域，安全问题更是一个重要的话题。在讨论鲁棒性、风险和估计时，这已经成为学习领域内一个重要的主题。在强化学习、自然语言处理和计算机视觉等方向已经有了很多研究，而在机器人领域，尽管可能规模较小，但也逐渐引入了类似的研究方向。随着技术的逐渐应用和实际问题的解决，对不确定性估计和风险估计的技术将会越来越成熟。

总的来说，基于学习的方法在提高可靠性方面面临的问题是共通的，但各个领域的应用和研究仍然需要深入，特别是在机器人的安全性和可靠性方面。

5. 关于Safety问题

许华哲：虽然小龙刚刚提到各个领域都有大量关于安全性的研究工作，但这些工作尚未成为一个标准。例如，在使用视觉模型时，我们很少看到默认情况下会使用的神经网络，它具有不影响性能的不确定性估计。对于不确定性的估计，首先，它不能损害性能，其次，其估计的不确定性必须是可信的。神经网络估计出来的不确定性本身也可能存在不确定性，这是一个需要解决的问题，虽然有一些研究和项目在处理这个问题。

对于安全性问题，我与小龙持相似观点，即我们应该先将系统构建得足够完善，然后再考虑将不确定性和安全性引入其中。这种逐步迭代的方式，先加速发展，然后在必要时添加安全约束，可能更有利于系统的发展速度。相比于在系统还未成熟时就施加多重限制，这种方法或许更能加速技术的发展。

Peter Chen：这里面有很多维度，包括可靠性、安全性，以及大型语言模型的安全性，涉及到对齐问题，即确保AI不会有自己的意图，不会对人类或其他方面造成破坏。对于这些维度，可以通过不同方法来解决。

首先，对于机器人的可靠性和安全性，我们可以采用经典的方法，使用编程来确保机器人在与物理世界进行交互时是安全的。例如，通过碰撞检测等机制，我们可以保证机器人的决策不会导致不安全的情况，这是一种典型的基于编程的智能方法，可以保证安全性。

至于更长远的通用智能方面，对机器人来说，还没有太大的必要去看safety的问题，首先要确保可靠性（reliability）和灵活性（flexibility）都做好已经非常不容易了。先要在新任务上实现高可靠性和高稳定性，然后再考虑更高级别的安全性问题，如AGI的单一性等。

6. 通用机器人落地的展望

许华哲：具身智能在短期内将主要应用于复杂场景，其中场景的复杂性要求智能系统能够应对各种复杂的物体和环境，如超市、园区物流、流水线等。尤其对于这些复杂场景中的操作，具身智能能够发挥其优势。

这里要区分一下具身智能与机器人学，机器人可能在更广泛的场景中有用武之地，但具身智能在面对复杂场景时更为突出。短期来看，这种应用可能会集中在弱人工智能、物流工厂等领域。从中长期来看，我们希望具身智能有望进入家庭，尤其是家庭的厨房。我觉得我们不如把这个松鼠桂鱼当做一个十年的benchmark。如果有一天这个机器人能帮我做一道松鼠桂鱼，它把那个鱼切的一个一个小格子，然后还不把鱼皮切断，还能把鱼鳞都刮了，然后还能炸，我想我们想看到未来就已经到了。

Peter Chen：我认为具身智能会首先在比较工业的场景中得到应用，然后逐渐扩展到更多样化但使用频次较低的场景。具身智能虽然具备智能，但仍需要相应的身体。例如，要炸一条鱼可能涉及到硬件平台的问题，特别是在家庭使用场景中，硬件的成本也是需要考虑的因素。

我对时间尺度有一点不同的看法，认为可能会在较短的时间内实现，而不是十年的时间。我期望在未来两到三年内，大多数可以用现有硬件解决的问题，并且还缺乏智能的问题都能够得到解决。我对于具身智能在短期内在高频次场景中取得进展比较乐观。

朱秋国：我更关心在复杂地形中的通行能力，腿足机器人可以有更好的通过能力。我期望未来的机器人具备更好的适应能力，能够在各种地形下自主通行，无需手动操作。我认为这种通行能力的提升对于机器人在各种场景中的应用都将产生积极的影响，例如在应急消防、室内外巡逻以及山地探测等方面。我预测在未来一到两年内，这方面的技术将会有显著突破，为机器人的发展带来实质性的改进。

王小龙：走路对机器人来说是一个相当重要的问题。目前在街上并没有看到机器人在行走，这可能是因为它们容易摔倒，也可能会遇到门无法打开等问题。前面的嘉宾们都已经就这个问题提出了一些很好的观点。接下来，我想从一个稍微不同的角度谈论这个问题，即社会层面的问题。我认为社会对机器人的接受程度也很重要。一个有趣的现象，就是在国内的酒店，机器人送餐已经相当普遍，但在美国并没有。原因是对于安装送饭机器人需要对电梯进行一些修改，而这可能存在一些安全隐患。在美国，这种安全隐患可能就不能被忽视。

我认为短期内，可以在没有人的情况下更好地发展，但一旦有人介入，问题可能变得更加困难。与人交互是一个关键问题，一些公司专注于高度合规性的解决方案。良好的人机交互至关重要，即使在解决了所有技术问题之后，社会交往仍会引发各种问题。我可以分享一个有趣的例子，通过人形机器人与演员合作跳舞的表演，可以通过这种形式逐渐改变社会对人工智能的看法，让人们更容易接受机器人的存在。

访谈的内容整理到这里，真的是万字长文，因为内容太过精彩，所以不舍得删减太多嘉宾的原话。我也开设了一档分享AI机器人领域最前沿的产业和学术动态的播客，可以在小宇宙搜索SOTA！

具身智能超级对话：人工智能如何引领机器人革命

相关新闻