这是峰瑞资本《具身智能系列》的第三期内容。
不久前,我们与逐际动力创始人张巍探讨了人形机器人下肢移动能力的突破,也跟中国科学院自动化所的研究员连文昭一起讨论了智能机器人上肢精准操作能力的进展。他们从创业者和从业者的视角,分享了自己所经历的具身智能技术发展、产业落地机遇,以及资本热潮。
早期投资人又是如何看待这波具身智能革命的?
这一次,我们邀请到两位峰瑞资本的科技投资同事颜黔杭和刘鹏琦来畅谈。过去一年,他们都投了具身智能赛道的项目。有意思的是,他们的背景与视角稍有不同:刘鹏琦是电子与计算机相关背景,颜黔杭则是机械和自动化背景。
而具身智能开始从想象照进现实,恰好得益于偏软的AI大模型的突破、偏硬的机械领域的进展,以及这两者的交叉融合。
他们聊到了:
- 中国的机器人赛道经历了哪几个发展阶段,发展脉络长什么样?
- 那些刷屏的人形机器人视频,更多只是炫技,还是说它们离真的落地不远了?
- AI大模型热热闹闹这一年多,最快能实现应用落地的方向是机器人吗
- 为什么学术界和业界普遍将具身智能定义为一个三层架构:大脑、小脑和本体,它们分别经历了什么样的发展脉络?
- 具身智能将如何改变我们的生活与产业格局,其商业化落地又面临哪些现实挑战?
我们将他们的部分讨论编辑成文,期待能提供新的思考角度。欢迎移步小宇宙APP / Apple Podcasts / 喜马拉雅APP,搜索并订阅「高能量」收听完整版。你如何看待具身智能的当下和未来?欢迎在评论区和我们聊聊。截止至5月24日17:00,留言最走心的3位读者将获得峰瑞行研手册一份和《这就是ChatGPT》一本。中国的机器人赛道经历了三次起伏
刘鹏琦:我的背景是电子和计算机相关,此前主要关注软件领域的投资。过去一年,我开始涉足 AI 大模型领域的投资,自然而然地关注到具身智能这个赛道。颜博是根正苗红的机械和机器人相关背景,一直在峰瑞看机器人赛道,你是怎么开始关注到这一波具身智能热潮的?
颜黔杭:我从本科到博士阶段一直学的都是机械专业,在博士期间我做了很多运动规划和轨迹规划相关的研究工作,涵盖了3D打印、机床加工以及机器人移动等技术。机器人一直是我非常关注的投资赛道。中国的机器人赛道经历了几轮起伏。早在2013至2014年间,工业机器人投资初现热潮,峰瑞在那时投资了翼菲自动化。到了2016至2017年,协作机器人成为新的投资焦点,涌现出许多知名公司,如优傲、遨博,以及峰瑞早期投资的长木谷医疗。疫情后的2022年,我们开始关注更倾向于通用机器人的新趋势。最初人们对机器人的关注主要集中在替代人力和工业场景自动化上,那时的机器人无需与人协同。后来,人们开始关注机器人跟人的协同,也就开始探索机器人的自适应性和智能性,这促成了协作机器人的新应用场景。例如,你让机器人把水杯端给你的过程中,你干扰一下,它还能非常稳定的把水杯拿过来。当前这一波人形机器人和具身智能的热潮,标志着智能化水平的不断提升,也反映了机器人行业的逐步成熟。我们之前与翼菲自动化的张赛讨论过,中国国产工业机器人的市场渗透率大约为三分之一。结合AI大模型的突破,人们开始认识到AI的通用智能化潜力。这一波热潮是这两个因素的结合。自2023年我们投资了逐际动力后,我们非常关注机器人除了腿部运动能力的通用性之外,是否还能逐步实现整体的通用化。现在的具身智能正处在
类似自动驾驶早期的发展阶段
刘鹏琦:当前这一波机器人与专注于制造业的上一代机器人有明显的不同,特别是它们与人的交互能力和广泛的通用性方面。我们在朋友圈看到的各种视频,从波士顿动力的机器人炫技般的翻跟头和跳跃,到特斯拉开始宣布要造机器人进工厂,再到前几个月斯坦福开源的炒虾机器人,开始让人们觉得机器人是不是真的能进入家庭并承担家务。最近,OpenAI投资的Figure公司发布了一个演示视频,展示了机器人与人类的互动,如递苹果和放盘子。英伟达在GTC大会上展示的一系列机器人也引起了广泛关注。看起来,第三波机器人热潮似乎来得很快,那些我们曾经认为非常科幻的场景,似乎离现实并不遥远。不知道颜博从专业角度,会如何看待这一波浪潮?我们看到的那些视频,更多只是炫技,还是说它们离真的落地不远了?
颜黔杭:坦率地说,当前人形机器人的热潮实际上是由去年特斯拉带起来的。大家可能还记得,早年波士顿动力刷屏的时候,普遍的观点是这只是个炫技,好像没法商业化。直到去年特斯拉的参与改变了这一观点,部分原因在于特斯拉在自动驾驶领域的深厚积累,使得它有机会把这些技术很好地应用到人形机器人上。特斯拉不仅有先进的AI技术,还有自己的汽车工厂,所以它在商业上推出机器人产品是一个合理的推断。因此,特斯拉的加入使得机器人的概念突然受到了广泛关注,当然马斯克也很擅长用前沿技术来制造热点。从投资人的角度来看,大家对机器人的理想预期是,未来如果有一个机器人能够自主移动,像人一样与人交互,并且能够完美地执行分配给它的任务。这是大家都期待的未来。我也跟一些机器人领域的专业人士进行了交流,包括传统机器人制造商和正在做触觉传感器和其他智能技术的人。他们的态度相对保守,认为当前的热潮有一定的泡沫成分。不过大家都认同,智能机器人是未来的趋势,其技术可能性已经得到一些验证,尽管实现商业化还需要很长时间。这可以参考自动驾驶技术的发展过程。回想十几年前,当Google做的自动驾驶小车刚开始在路上跑时,大家都希望它能够达到L4或L5级别的自动化,这无疑是一个遥远的目标。而现在的人形机器人或具身智能,可能正处在类似自动驾驶早期的阶段。刘鹏琦:是的,尽管无人驾驶汽车在10到20年前就能够上路,但是至今也还没普及。这只是一个时间问题,机器人的发展也可能遵循类似的轨迹。机器人是可以最快应用AI的方向之一
刘鹏琦:除了机器人,另一个备受关注的概念是“具身智能”。我查了一下它的定义,在英文中它其实就叫 Embodied AI,字面意思是“具象化的人工智能”。中国计算机学会给出了一个非常专业的定义:具身智能是一个基于物理身体进行感知和行动的智能系统,它能够通过智能体与环境交互,获取信息、理解问题,做出决策并实现行动,从而产生智能行为和适应性。站在机器人的角度,这个定义相当于给传统的机器人增加了智能和通用的能力,让它能够去做智能决策和泛化任务。在我看来,具身智能机器人其实跟通用智能机器人是一个概念,只不过这一波正好被大模型带起来,所以大家会把它定义为具身智能机器人。在英语里,机器人其实叫Robot,没有说它一定要是一个“人”的概念,它本质上是一个能够执行任务的自动化机械装置。你觉得具身智能和通用智能机器人是一回事吗?
颜黔杭:大家为什么逐步意识到要做一个通用智能机器人?最早的时候写代码,只要明确地编好它,执行一段具体的任务就可以,但后来大家发现这种方法需要很多的IT专家来不断地修改代码和任务,这是一个极其复杂的过程。因此,人们开始期待机器人能够具备自主智能,能够执行多种任务。今天机器人的商业模式是基于机器人作为自动化的节点来形成的,这个模式本质上非常重。不管是从技术层面还是商业模式角度,都在逼着所有的机器人公司去做通用化的智能机器,以实现产品化。回到具身智能这个概念, Embodied AI本质上是把 AI 从软件层面与物理世界形成一个具体的交互窗口,人形是机器人是最直接能想到的一个形态。其实我觉得不一定得是人形,通用智能机器人只是具身智能的一个子集,具象化的形态可以多种多样,可以是一个大型的工业设备,只要给它加上AI,它也是一个具身智能系统。自动驾驶本质上也是具身智能的一个例子。所以总的来说,最后大家追求的通用智能机械的概念就恰好需要 AI 来实现,因为仅靠硬件或者说靠传统固件,是没法实现通用智能的。恰好今天AI 大模型证明了自己有一定的通用泛化能力。那么,回过头来再去看,是不是在机器人上可以最快地去应用AI?因此,可以说今天是两个方向都想到了一起,一方面是传统机器人领域的人在做AI,另一方面是研究 AI 的人冲过来做机器人。对机器人来说,人形是最好的吗?
刘鹏琦:听下来,无论是“机器人”中的那个“人”,还是说“具身智能”里的那个“身”,在汉语中可能会让人误以为指的是人形。但从英文定义和实际产业情况来看,并不一定要求机器人必须是人形。那么,为什么无论是波士顿动力,还是更早的一些日本公司,以及最近包括特斯拉、Figure AI,与国内的一些厂商都把研发的重点放在了人形上?能否跟大家分享一下人形机器人的发展脉络,以及为什么业界对人形如此热衷?颜黔杭:实际上,人形机器人的发展历程本质上是对它控制维度和控制能力不断进行升级的过程。以日本早期的机器人为例,像ASIMO这样的模型还没有力矩控制功能,主要依赖位置控制,因此它行走时步伐细小且多在平地上试探性地移动。波士顿动力是最早采用力矩反馈进行局部运动控制的团队之一,在电机技术尚未成熟时,他们采用液压系统开发了Altas系列人形机器人。如今,随着电机性能的提升,得益于新能源车产业的发展和技术的外溢,像Figure AI这样的人形机器人公司开始推出他们的产品,特斯拉也开始带火市场。最初,人们对机器人的设想还只是替代人类完成具体工作,用机器执行任务。现在,大家都在研发人形机器人,我个人的理解是,除了科幻和宣传价值外,从物理层面来看,人形机器人在手的操作能力和脚的移动能力上具有最高的自由度和最强的通用性。这点逐际动力的张巍老师也有详细讲到。通用智能型人形机器人,正在逐渐成为行业内的共识。刘鹏琦:在有些场景,比如说制造业,就不一定都需要人形的形态,我们造一个自动化的设备就行。但在比如家庭场景中,我们需要更适合跟人类交互的设备和机器,很多现有设施也是为人类需求而设计的,人形就比较合适。颜黔杭:有一次,我了解到一个有趣的场景,目前许多高附加值的工业产品仍然需要手工制作,如苏绣。它太复杂了,既需要工匠的学习能力,又需要完成非常精细的操作。例如,苏绣需要工匠将一根丝线分成20丝,然后穿针引线,一点点绣。这对人来说已经非常困难,如果未来机器人能够替代人类完成这项工作,会带来巨大的生产价值。目前,传统工业机器人的一个主要障碍是它们的灵活性不高,无法在许多场景中替代人类。往将来看,如果人形机器人能够完成人类能做的所有事情,那将是一个理想的状态。因此,服务、生产、消费等各种场景都可能成为人形机器人的潜在应用领域。
当前的大模型有点像哲学里的“缸中之脑”
颜黔杭:回过头去看,人形与具身这一波热潮,大模型起到了关键作用。你认为到底什么样的大模型跟什么样的机器人本体结合才会实现真正的具身智能?
刘鹏琦:这其实是我最关心的问题。我关注具身智能这个赛道,也是从大模型这儿引申来的。大模型技术对通用智能机器人最直接的影响是它显著提升了机器人对环境的感知和理解能力,叠加它能去理解人类的语言指令,就能够更好地进行任务决策和拆解。所以,大模型其实增强机器人的“大脑”的能力。不过,大模型对机器人“小脑”的能力,也就是规划和控制能力的提升,到底能发挥出多大的空间,现在学术界和业界似乎还没有定论。
颜黔杭:当前的大模型类似于哲学里的“缸中之脑”,它是一个理想化的模型,只输出语言或多模态信息,独立于机器或身体存在。未来它应该连接到什么样的身体或形态,才能完全发挥其通用功能,这是目前投资者和创业者都在探索的问题。刘鹏琦:我们已经深入到有关技术的核心讨论。从我的理解来看,无论是具身智能还是通用智能机器人,它们的发展主要来自于两个产业的交叉融合。一方面是硬件领域,工业化和产业化推动了汽车、机器人等机械结构、电气化和传感器的快速发展,也降低了硬件的成本,使它们更加普及。另一方面是软件和数据领域,从早期的电脑和PC到软件,再到互联网,产生了海量数据,结合强大的算力,催生了我们今天看到的规模法则和大模型。这与人类乃至生物的进化历史也特别像。我们的身体不断适应环境,进化出了直立行走与发达的大脑。当大脑足够发达时,我们发展出了虚构、想象等独特的软能力,这些能力进一步带来了语言、宗教和文化的演化。在具身智能领域,硬件和软件数据这两线再次交汇在一起。作为投资人,我其实特别兴奋,不仅是纯软件的通用智能在GPT的推动下接近实现,我甚至感觉到与物理世界交互的具身智能也快要出现了。理解具身智能的三层框架:
大脑、小脑、本体
刘鹏琦:从技术角度来看,目前学术界和业界普遍将具身智能定义为一个三层架构:大脑、小脑和本体。最底层的硬件也就是本体这部分,主要负责对环境的感知并执行具体动作。最上层的大脑,属于偏软的部分,负责对环境感知的理解。例如,当接收到语言任务指令时,大脑能够理解这个任务并把它拆解为多个步骤,这是大模型能够发挥最大价值的地方。OpenAI与Figure的结合就实现了这样的功能。那么,怎么能够把软的和硬的这两条线连在一起?主要靠中间的小脑层。就跟我们人一样,只有大脑和身体不够,我们还需要能够去做导航、平衡等复杂操作,这就涉及到控制我们每个关节的活动。这些活动并不是我们大脑主动思考产生的,而是我们在不由自主的状态下自然产生的。这就是小脑的功能,它作为中间层连接大脑和本体。▎本体进化到了什么阶段?
刘鹏琦:颜博是偏机器人硬件的专业背景,我很好奇如果要实现通用智能机器人,硬件本体现在的成熟度如何,已经能够支撑具身智能的发展了吗?如果还不够,哪些技术有待进一步的突破?颜黔杭:谈到硬件这一层,我们可以把它分成上半身和下半身去看。上半身更多是负责操作的臂、 灵巧手。这么些年下来,臂的技术相对已经比较完善与成熟,因为它在工业场景里已经落地验证了很多年。灵巧手的进展相对缓慢一些,说白了原来很多场景并不需要手多么灵巧。目前类人的灵巧手还更处于科研或者说研发阶段,相信大家会尝试着做出来。至于下半身,即机器人的腿部和足部,包括电机、减速器等执行器件,目前并不是构成硬壁垒的稀缺技术。在上一波四足机器人的创业热潮中,甚至有人在淘宝上只需花费4万元就能组装出一只四足机械狗,但这只机械狗能否正常行走,则需要研发者自己进行开发。对于人形或通用智能机器人来说,随着新需求的诞生和中国供应链的快速迭代,硬件的基础能力已经可以去支持一些具身智能的落地与验证,当然,硬件还需要进行一些改进,以适应新场景的需求。例如,硬件的抗冲击能力是一个需要关注的问题。传统的协作机器人或工业机器人通常在固定场景下工作,不会遇到太多意外干扰,因此对机器人的抗冲击性能要求不高。但是,当双足机器人在野外等复杂环境中行走时,可能会遇到滑倒或从高处跌落的情况,这就要求硬件具备更高的抗击打和抗冲击能力。刘鹏琦:也就是对鲁棒性有要求。除此以外,目前可能还欠缺的是灵巧操作的能力。
颜黔杭:对。灵巧操作的硬件还相对比较初级,因为今天大家还处在验证其可行性的阶段,没太考虑各种商业化落地的成本与效率。假设未来要考虑效率的话,一个摆在面前的问题是,人类一天只需要吃三顿饭,就可以工作一整天,但是机器人工作一整天需要消耗的能量要远高于人类。所以,在可行性得到验证之后,下一步大家在硬件上会去关注和优化它的能量利用效率,比如什么样的硬件形态可以提升所谓的能量输入与输出的效率。刘鹏琦:除了骨骼和肌肉层面的硬件,人类还有耳朵、眼睛、鼻子这些来感知世界。目前传感器技术处于什么发展阶段?它的成熟度是否足以支撑具身智能的发展?颜黔杭:从控制学的角度来看,控制学的突破得益于角编码传感器的引入,这些技术第一次实现了精确的位置控制,使得伺服电机在过去三四十年成为工业界的主流技术。对于机器人来说,今天视觉传感器的引入,让机器人可以看见,但是其他维度的感知能力,比如触觉和力觉传感器还没有在机器人上普及开来。刘鹏琦:是因为太大还是太贵?
颜黔杭:跟贵和大都有关系。目前市场上比较缺标准化的、集成度更高的传感器解决方案。刘鹏琦:也就是说现在整体的市场需求和量还没起来。
颜黔杭:所以大家还不太关注。目前,机器人视觉的重要性已经被意识到了,接下来如果机器人的触觉与力觉能进一步提升,对机器人实现智能会很有帮助。这就跟人一样,如果你只有一点视觉,没有力觉,没有触觉,就算你有一个特别好的小脑和大脑,你在实际执行任务的过程中,很难去完成一些健全的人随随便便就能完成的任务。当然,对机器人智能的要求不必过高,即要求他们在缺乏感知能力的情况下去完成任务,因为智能和机器人本体的能力是相辅相成的。在一个强大的身体上,相对简单的智能可能就足以完成工作。刘鹏琦:听起来,在硬件本体和传感器方面,尽管目前还有一些挑战,但前景是乐观的。只要需求增加,给予一定的时间,这些问题基本上都能得到解决。▎小脑:机器人的控制方法正从基于模型过渡到基于学习刘鹏琦:聊完了本体,我们再往上看一层看看小脑,跟负责思考的大脑和可以看得见摸得着的本体不同,小脑的概念特别抽象,可能不太好理解,但小脑作为虚拟世界和物理世界的交叉,是机器人最终去执行规划和控制的关键部分,它经历了一个什么样的发展脉络?颜黔杭:从经典控制学的角度来看,控制的核心是确保设备在接收到指令后能够精确地完成既定目标。控制方法本质上是一个求解方程的过程,关键在于如何更准确地解这个方程。与传统的工业机器人不同,它们通常在简单场景中重复执行任务,人形机器人面对的是复杂多变的环境和多任务需求。因此,控制方法需要更高的响应频率和灵活性。如果尝试对所有控制需求进行面面俱到的建模,会产生大量参数,使得方程求解变得极其复杂。目前基于模型的控制理论(model based control),通过抽象出简化的模型,并通过推导这些模型,来近似实现比较理想的控制效果。波士顿动力在过去十几年中一直在验证这种控制理论。刘鹏琦:这种模型应该需要非常长时间的积累。
颜黔杭:是的,对模型进行抽象的能力要求也比较高。比如,抽象出来的模型如何能尽可能接近真实的场景,这样才能在减少求解参数的同时,保证解的精度。这是一个逆向求解方程的过程。从数值计算的角度理解,AI 本质上是一个函数回归器或者叫优化器。那么,在有足够多数据的情况下,是不是能用 AI 来加速方程的求解过程呢?不依赖传统的数学数值计算方法,直接使用AI模型来训练大量数据,正向求解方程。这种方法无疑会大幅提升复杂场景下的效率。因此,现在人们开始强调使用强化学习和模仿学习方法,结合小脑实现更强大的控制能力。基于模型的控制面临的另一个挑战是通用性。许多模型在某些场景下有效,而在其他场景下则不适用。过去,AI在自然语言处理(NLP)和计算机视觉(CV)领域已经证明了自己的能力。传统的CV依赖于特征工程,只能在特定场景中有效,通用化都是依靠AI来实现的。NLP也是如此,原来的模型只能做特定工作,如翻译,但现在可以使用一个大模型来解决各种问题。因此,人们也在考虑机器人控制方法是否应该从基于模型的控制逐步过渡到基于学习的控制。刘鹏琦:你刚才谈到了两个关键词:强化学习与模仿学习。这也是最近各种文章和视频里被谈到特别多的两个概念。我其实有一些疑问。首先强化学习最早出圈是因为 Google 当时推出的AlphaGo通过深度强化学习在围棋领域战胜最强的人类,但围棋毕竟是一个相对封闭的场景,有非常明确的规则。然而机器人周围的物理世界肯定是非常复杂和多样化的,在复杂的环境下,我们怎么能够通过强化学习去训练出一个好的模型呢?
颜黔杭:今天的足式机器人在应用强化学习的时候,其实是一个局部替代慢慢过渡到全面替代的过程。这一过程首先依赖于已有的高质量运动控制数据,这些数据可能是基于模型的控制方法产生的。然后,需要一个有效的奖励函数来驱动机器人进行大量的内部迭代。由于机器人实际面对的物理场景很复杂,如果在训练阶段就去找这些场景,成本会很高。所以,就像自动驾驶里的仿真驾驶,机器人也可以通过仿真环境来进行训练。比如可以直接仿真出一个复杂的地形,包括上上下下的楼梯、沙石地或者水泥地,然后让机器人尝试用高质量数据在这些地形上进行训练,这样可以加速模型的训练过程。要真正得到一个很好的模型,其实是多方面工程经验累积的结果,并不是单独靠仿真环境搭建得有多好、强化学习有多强,或者是数据有多好。这些都缺一不可。刘鹏琦:所以,强化学习更多就是一种通过实战来学习的过程。以及,仿真环境对于训练出一个好的强化学习是比较重要的。对于模仿学习我也做了一点研究,模仿学习的过程其实是一种有监督的学习。比如打羽毛球,我们需要人来把操作演示一遍,然后把这些数据喂给机器人,然后机器人尽可能地模仿人的操作过程,以实现它自己的实际操作。这个过程中必然需要大量的数据,如果数据不够,那肯定没法泛化,所以我觉得这块的挑战在于,怎么能够去采集足够多的数据来帮助机器人做模仿学习呢?
颜黔杭:其实也是考虑到机器人实际跟物理世界交互的高质量数据非常难获得,所以想到了用人去教他,来积累一些数据。此外,还可以使用合成数据,例如炒菜时的翻炒动作,我们可以对其进行一些调整,然后利用AI合成新的视频数据作为补充。模仿学习目前面临一些短期内难以解决的问题,这些问题并不直接与模仿学习本身相关,而是受限于机器人自身的能力。首先是机器人能否有效利用模仿学习提供的数据。其次是从智能化的角度来看,通过模仿学习获得的知识是否能够被拆解和内化。这两个问题可能不是单纯依靠模仿学习方法就能解决的。这些问题会带来什么后果呢?目前的模仿学习可以教会机器人复制动作,但它不能让机器人理解动作背后的逻辑和决策原因。换句话说,机器人只能模仿人类的动作轨迹和控制参数,这在模仿学习中是比较初级的。比如,当教练手把手教你如何挥拍时,你记住的不仅是挥拍的动作轨迹,还有如何引导身体和手发力的技巧。目前的机器人要学习这些还很难,它们无法有效利用这些数据,这类似于在Transformer出现之前,自然语言处理(NLP)领域不知道如何对文本进行有效编码并进行泛化训练。另一个问题是,模仿学习学到的内容受限于机器人的感知能力。例如,让机器人叠衣服,它只能模仿动作,但可能难以识别衣服的材质等细节,这些都是遥操作的局限。最后,从人运动的角度来说,模仿学习的第一步实际上不是到小脑,而是到大脑。大脑需要先拆解这些动作,然后内化并传递给小脑来作为训练数据。这个过程可能还需要技术上的迭代和大家更多的思考。我一直在想,模仿学习应该学习颗粒度多细的任务?如果学习的是复杂的人类任务,比如端杯水然后把糖加进去,这对模仿学习来说难以泛化。要实现泛化,就需要在合理的颗粒度上进行模仿。刘鹏琦:从你角度来看,现在所谓模仿学习并不是真的模仿学习。比如,教机器人端杯子这一个动作,可能需要重复100 次,而人类甚至可能通过语言描述或者一次示范就学会了。目前的方法大多是有监督的数据驱动方式,但长期来看,我们如何能以尽可能少的数据实现学习?结合您刚才提到的大脑的能力,我们如何让机器人不仅知其然,还知其所以然?这可能是未来的发展方向,也是需要突破的关键点。颜黔杭:我想补充一点,我一直在思考大脑和小脑之间的界限在哪里。人类经过进化,大脑和小脑的功能已经区分得相当清楚。然而,目前机器人的小脑和大脑能力还相对初级,有时界限并不明确。我从已投企业那学到的一个思路是,将小脑变成一个由AI驱动的基础大模型,虽然不直接解决核心任务,但它像一个底层操作系统,当大脑有具体任务和指令时,它有足够的能力去执行这些任务。因此,未来的具身智能可能更多地侧重于,来自大脑的一些任务,如何可以更好地利用小脑的机器人基础大模型,来把具体任务执行好。刘鹏琦:关于大脑和小脑的边界这个问题,我们的共识应该是大脑这一层,也就是机器人对环境的感知、对任务的理解与决策拆解这件事做得还不错。我们从OpenAI 、Tesla、Google等公司的演示视频里已经能够看到这一点。我们也看到学术界和业界似乎并不满足于只把大模型当作大脑来用,他们开始考虑大模型是不是能够承担一部分小脑的能力?比如说 Google 这一年发的无论是 RT-1 的小模型和 RT-2 的大模型,都开始尝试把视觉语言和行为轨迹放到了一个大模型里进行端到端的训练,然后直接执行下游的任务。这是否意味着我们根本就不用讨论所谓强化学习、模仿学习,我们把能收集到的数据直接喂给大模型,直接端到端就能出结果,这是不是未来的一个趋势?
颜黔杭:我个人的观点是,Google的RTX系列确实证明了端到端方法的可行性,使用大模型驱动是可行的。但在实际使用中,由于需要大模型去推理每个节点的轨迹数据,这会导致频率非常慢,可能出现一卡一卡的情况。要知道,在控制领域,通常需要100赫兹以上的控制频率来保证整个过程的连续性和不间断性。虽然大模型在初期可能有助于小脑完善新任务的能力训练,但从长远来看,大脑和小脑可能还是需要分开,这就像小孩子学走路,他们需要仔细观察地面,小心翼翼地一步步走。婴儿走路时大脑参与度很高,需要学习如何踩踏,观察脚落地后的结果。但对成人来说,走路时大脑只需要规划路线,踩踏的精确性和力度逐渐变成肌肉记忆。刘鹏琦:是不是可以理解为,未来机器人的大脑会承担学习的角色,一旦学会,它学到的参数和模型就可以沉淀到一个更小的模型上,这个小模型可能不需要什么功耗,也不需要什么推理,就可以自动地去执行那些它已经学会的一些动作,就像训练和推理的关系一样。颜黔杭:最终,具身智能可能会往这个方向走。因为没有人要求机器人是运动全才,大家也都是努力在一个方向上大规模地去训练。运动员训练的本质也是通过重复的肌肉运动,把大脑里不断强化的知识固化到小脑里,形成一些肌肉本能。训练的目标是使得身体在感知到或者说眼睛看到之前就能提前做出一些本能反应。从这个角度看,机器人的大脑未来在学习上确实会非常有帮助,但实际在落地的过程中,有些工作需要比较好的小脑去承接,或者说需要相对更理想的一个架构。大家今天看到的 RT-2模型虽然 能学习但是不能用,这是一个比较棘手的问题。具身智能商业化落地的现实考量
刘鹏琦:我们已经对技术进行了充分的探讨,最后再聊聊商业化和投资相关的问题。你之前看的机器人公司大多数落地在偏制造业和服务场景。这一波具身智能和通用智能机器人,你觉得需要考虑它们短期的落地吗,还是说我们就先只展望未来就可以?如果说需要考虑落地的话,潜在挑战在哪?颜黔杭:如果让这类机器人公司落地,可能要参考业界普遍的做法。也就是先去做最完美的研发,然后逐步把技术拆解出来,再降维去做商业化。这是一种由高到低的技术转化过程。刘鹏琦:原来包括美国在内的一些国家集中力量做了很多大型的高技术项目,比如说航天飞机、火箭,不管这些项目本身是否特别赚钱,在做这些项目的过程中会产生很多能够民用的小技术点,民用化本身就可以带来其他行业的进步。在做人形机器人的过程中,相信也能拆出来很多模块,比如说灵巧手,可以在一些特定的场景中发挥作用。颜黔杭:从投资的角度来看,我们肯定希望被投公司既能做科研,也能做商业化。如果项目团队能把机器人做成产品来交付,就有一定的商业化的落地能力。例如扫地机器人就很成功,它把自己做成了消费电子产品。这一波具身智能机器人如果能在小场景中找到可以产品化的方向,并解决通用性问题,就能实现一定程度的商业化。挑战在于,如果要商业化,市场对产品的要求通常会非常高,至少要达到80分以上。即便证明了自己的通用性,如果与竞争对手没有拉开质的差距,商业化仍然具有挑战性。我曾经问过各种不同场景里的机器人创业者:GPT Vision以及SAM之类的视觉大模型的出现,会不会对他们的工业机器人有什么影响?大部分创业者给我的答案是,客户不会为这个额外买单。所以,新技术在商业化上的进度还是偏慢的,必须要找到有非常明确的产品需求的场景——不一定是纯人形机器人的商业化,也可能是复合机器人。举个例子,传统的已经非常成熟的 AGV (自动引导车)加上两个臂,就可以实现在不同的场景的抓取和分拣。比如今天把它搬到工厂场景,让它做金属件的上下料;明天把它放到物流场景,来抓快递。这些都是通用智能该具备的能力。如果能做到这样,那它的商业化前景是巨大的。短期内,还是因为技术不够成熟,人们对未来的预期将取决于技术进步的速度。刘鹏琦:听下来,我们还是要保持技术研发的高度,但是可以降维去做一些能够落地的场景。比如说,自动驾驶已经发展很多年了,其实到现在还没有完全落地,但是它衍生出来很多试用于特定场景的技术和产品,这些都是自动驾驶技术的降维应用,如家庭的扫地机器人、工厂里的 AGV 等等。相信现在的具身智能也会有类似的一些场景出现,不过最大的挑战还是之前听连文昭提到的,在怎么去平衡好准确率、执行速度和通用性这三个方面。
颜黔杭:这个我非常赞同。这一波具身智能机器人公司在寻找商业化路径的时候,优势还是在通用性上。它没必要跟传统的专用机器人来卷精度和速度,更可行的是在通用性上去找一些替代价值高的场景,比如跟人的交互、对人的服务,包括养老、带小孩等家庭看护场景。在这些场景里,人形机器人反而是有优势的,因为它本质上不需要达到精确到 1 毫米以内的操作,人类的许多操作也达不到这样的精度。刘鹏琦:换句话说,传统的工业机器人公司,包括自动驾驶公司,它们想往具身智能转,是不是也没那么容易?我听说有公司计划先做一个扫地机器人,未来这个扫地机器人也许能够长出两个机械臂,再长出更多的传感器,从而演变成一个家庭服务机器人。你觉得这种可能性大吗?
颜黔杭:这就回到了一个问题:技术的变革到底应该先占领市场,还是先占领技术的前沿?目前我认为,在ToC应用端,机器人技术变革可能还是需要站在技术前沿。因为市场的忠诚度可能并不高。一旦一家公司在技术前沿站稳脚跟,并真正推出了一些有趣且智能化的机器人陪护产品,可能你作为消费者不一定会选择买扫地机器人品牌做的家庭陪护机器人,你不会有这个惯性。刘鹏琦:特别是我们守着国内这么强大的供应链能力,硬件制造和产品能力的这个课可能是相对好补的。如何投资具身智能?
刘鹏琦:回到投资相关,在整个具身智能赛道,你会着重看哪些方向的公司,以及在选择团队时, 你会重视哪些能力?颜黔杭:我平时看硬件比较多。最近我比较关注的是灵巧手方向,很好奇是否会有新的驱动形态或者新的技术实现方式。由于手的自由度关节过多,传统电驱要实现一定的复杂度和精度是特别有难度的。另一个我觉得有机会的方向是硬件传感器。我也在思考到底什么样的驱动因素能够推进传感器在机器人行业的大规模应用。在具身智能或者偏 AI 方面,我也会在数据、模型跟场景这三个方向来探索一些新的投资机会。刘鹏琦:明白了。我之前看 AI 比较多,我的侧重点是以小脑为核心,这也是现在还没有解决好的关键问题。以小脑为中心,往上游看,我会关注小脑需要去指挥的硬件和为小脑贡献数据的传感器;往下游看,我关注怎么能够把大模型的能力更多地应用到小脑上,使小脑有更强的通用性和泛化能力。结合我之前投软件的经验,我觉得机器人公司需要特别关注产品的落地,要能实现数据闭环,并迭代技术。特斯拉就是个很好的例子,它先把车卖出去,车上装有传感器,可以自动采集数据,从而迭代技术。此外,现在整个具身智能赛道都比较卷,卷资金,卷人才,这对公司的融资能力也提出了很高的要求。今天咱们的讨论还挺充分,无论是行业现状、底层技术,还是商业化和投资机会都有涉及。希望能够给大家一些启发,也欢迎能跟大家有更多深入的探讨。谢谢!你如何看待具身智能的当下和未来?欢迎在评论区和我们聊聊。截止至5月24日17:00,留言最走心的3位读者将获得峰瑞行研手册一份和《这就是ChatGPT》一本。