上个月初,上海世界人工智能大会(WAIC 2024)展出人形机器人「十八金刚」引爆会场。一个月后,世界机器人大会(WRC 2024)又即将在北京拉开帷幕。再回到 5 月,在国际顶级机器人学术会议(ICRA 2024)的机器人方阵中,参与的双足人形机器人大多都来自中国企业。2024 年似乎已成为「中国具身智能元年」——在大模型技术的加持下,一个足够 sexy 的故事正在被叙述:长出「大脑」的人形机器人与科幻电影中通用机器人之间的差距正在缩短。故事的书写者们,已在具身智能领域内掀起一场诸神之战。首先下场的是一批因大模型爆发而诞生于高校的智能派选手。高校教授们(特别是计算机视觉学者)纷纷迈入产业界开始创业,创立了如清华的星动纪元、星海图,北大的银河通用机器人,上海交通大学的穹彻智能、智元机器人等等具身智能公司。除了来自高校实验室外,还有的玩家则是脱胎于大厂,比如核心团队来自腾讯 Robotics X 的星尘智能以及出自小鹏鹏行的众擎机器人与九光智能。此外,作为以本体、硬件见长的传统派,优必选、宇树、傅利叶智能、乐聚机器人等老牌机器人厂商也加入了战局,开卷具身智能。在这场没有硝烟的战争中,具身智能玩家们共同面临着一系列核心问题:人形是具身智能的终点吗?灵巧手和双足,哪个更重要?端到端和分层决策孰优孰劣?大脑和小脑谁的优先级更高?数据飞轮如何启动?选择哪些场景落地?显然,技术的突破与多样性带来了丰富的视角,却也意味着具身智能领域目前还是一个没有人绝对领先的比赛。玩家们各自为营,尝试着不同的路径和方法,在这场百家争鸣的较量中,胜者尚不可知。让我们先来看看最外显、直观的第一道关卡——构型之争。在众多与具身智能一起狂飙的子赛道中,人形机器人绝对是最火热的那一个。据不完全统计,2024 年上半年,国内人形机器人领域投融资活跃,共发生 13 起融资事件,累计吸金逾 20 亿元人民币。成立仅一年的银河通用机器人,在 6 月甚至获得超 7 亿人民币天使轮融资,估值达到数十亿人民币,被称为「年度最大天使轮」。一时间,似乎连资本也达成了共识——人形机器人就是实现具身智能的终极形态。简单来说,人形机器人领域可划分为三大类别:轮式机器人,以轮式驱动为核心,配备协作机器人手臂和灵巧手,突出触觉传感与手部操作能力,同时具备高效移动性;足式机器人,专注于腿部运动性能,手臂主要承担平衡功能;全能型机器人,集成双足、双臂、双手及多种感知系统,搭载 AI 技术,旨在开放式环境中执行多样化任务,展现了高度的适应性和功能性。不难发现,人形机器人这一构型可被具体拆解为核心是操作能力(manipulation)的「上半身」与重点在移动能力(locomotion)的「下半身」。因全能型机器人的探索难度高、落地速度慢,大部分具身智能企业的创业路径其实可以基于轮式和足式做出区分。将研发精力倾注在双臂操作能力上的上半身代表们基本很少选择双足,而是会搭配轮式底盘或轮足以满足基础的移动功能,如星尘智能 S1(轮式底盘+人形上身)、银河通用 Galbot G1(左手吸盘、右手夹爪+轮式底盘的折叠升降设计)、星海图 R1(轮式双臂仿人形机器人)等等。银河通用 Galbot G1
更重视移动能力的下半身玩家们则会优先解决双足的问题,减少甚至省略对上半身手部的投入,以实现机器人的跑步、跳跃等高难度动作。比如,宇树的全尺寸双足人形机器人 H1(双手为两个球体)、逐际动力的人形机器人CL-1(双手为两圆柱)和双足机器人 P1(无上半身/机械臂)等等。「国内在机器人腿部和足部的研究曾经是一个焦点,部分是因为受到了波士顿动力等公司的影响。他们的机器人虽然在展示度上很高,但实际应用中,仅仅能跑能走是不够的。相比之下,上肢的操作技能更为关键,尤其是在学习和执行操作任务的时候。」在中科大与比亚迪联合培养的 AI 机器人方向博士后张岩如此说道。5月,ICRA 2024 的现场也瞥见了一场从移动转向操作、通向具身智能的范式转变。「参会时能看到现在大家都在研究操作,这已成为机器人研究者每天做得最多的一件事。」清华具身智能实验室主任、星海图联创许华哲说,「让机器人做后空翻等很多很酷的动作,当然在技术上意义重大,但是没有解决我们的需求,而操作是解决需求的,因为我们每天都在用手干各种各样的事。」没错,大模型涌现的智能让大家看到了通用机器人诞生与落地的曙光,其中最明显的表现主要聚焦于对操作能力的重视。以工业场景为例,目前较大的症结点在于,让智能化水平适配生产力的要求。毕竟,在效率和精确度优先的工厂中,在限定时间到达确定位置完成给定的任务优先级更高,对智能水平反而没有要求。「其实中间存在需求的差异,能组装车辆的机器人无法开门,因为目前越智能的东西不确定性越高,特别是深度学习、神经网络,难以保证输出精度。」艾欧智能创始人陈相羽分享道。「但核心还是在于操作的智能化程度不够,以自然界类比,能使用手干活的都是智能化水平非常高的哺乳动物,但基本上所有动物都会跑,移动是个基本技能。」当上肢逐渐成为具身智能的焦点,再细分一下,决定上半身操作能力的,其实是对末端执行器的选择。尽管同样认为操作能力比移动能力重要,轮式玩家们仍采取了不同的方案。有的企业直接推出五指灵巧手,如戴盟机器人的 Sparky 1 配备基于光学触觉传感器的五指灵巧手;有的企业则先从二指夹爪、三指手出发,如星尘智能 S1 的双机械臂搭配二指夹爪,银河通用 G1 采用右夹爪和左吸盘组合,以及 UniX AI 家庭场景机器人 Wanda 的三指手 。没错,在拐入「上半身」这个路口后,是否应该钻研五指灵巧手,成为了摆在轮式玩家面前的第二个分岔路。类比 L4 级自动驾驶,戴盟机器人决定从一开始就致力于将手部做到极致,再根据需求降维开发不同的产品,即当产品不需要高级技能时降低成本,减少自由度。于是,他们推出集成了视触觉传感器的五指灵巧手。戴盟首席科学家王煜教授读博时师从卡内基梅隆大学(CMU)时任机器人研究所所长 Matthew Thomas Mason 研发机器人手部,他解释戴盟重视五指灵巧手的原因:「这其实和波士顿动力的理念是相似的,他们是将腿部做到极致,赋予了机器人强大的能力。我们认为,只有通过这种方式,才能充分发挥机器人的潜力,并根据市场需求定义产品,同时控制好价格。」有的企业则决定在使用技术难度更低、鲁棒性更高的夹爪方案之余,同步推进五指灵巧手的研发,比如创始人兼 CEO 为 00 后耶鲁博士的 Uni X AI。目前,UniX AI推出的人形机器人 Wanda 采取三指夹爪方案,可以适配夹起鸡蛋、豆腐等需要精细力控的场景。在 CEO 杨丰瑜看来,他们之所以会开展五指灵巧手的研发,是因为五指灵巧手具有更高的灵活性与功能性,能够满足在更加复杂场景中的使用需求,是未来末端执行器的技术发展趋势。五指灵巧手能够完美复制人手功能,从而更像人手一样对自然界中各式各样的物体进行稳定、精准抓取。多「指」同步研发的 UniX AI 意在为不同的场景和任务给予适配的末端执行器方案。「我们自研的电动夹爪与和自研的五指灵巧手所定义的场景不同。电动夹爪技术难度低、鲁棒性高,能够满足客户在常规场景中使用;而五指灵巧手作为高性能、高灵活性末端执行器,可供客户在特殊及复杂场景中使用,同时对提高机器人的柔性和易用性有着极为重要的作用。」有趣的是,并非所有上半身玩家都赞同对五指灵巧手的投入。一位专注双臂服务机器人的业者认为,学术过分关注灵巧手的研究是机器人领域的一个误区,二指夹爪已能完成大多数任务。「达芬奇手术机器人是纯粹的自动化机械,没有灵巧手也能做精细操作、给葡萄皮缝针,说明是视觉策略领先,末端执行器足够简单。人的规划能力极强,不是因为手的存在让人类能完成复杂任务,复杂任务本质上跟末端执行器没关系。」讲完上半身的末端执行器,让我们回到最初的那个分岔路口,看看通向下半身移动能力的那个方向。简单来说,人形机器人下半身的移动能力,主要在双足和非双足(轮式或轮足式)做出区分。从 1973 年早稻田大学开发的世界上第一款人形机器人 WABOT-1,到 2000 年首次亮相的本田 ASIMO 机器人,再到波士顿动力 2016 年推出的 Atlas 机器人,人形机器人最受瞩目的进展便集中在了双足之上,即逐渐从只能「缓慢步行」的初级阶段进化到能「跑酷」的高动态运动发展阶段,开始具有极强的平衡性和越障能力,能够完成高难度动作。来到具身智能时代,大模型技术的爆发使得非双足玩家们声量渐起。不少从业者认为,在当前技术条件下,双足机器人在实用性、稳定性和商业价值方面不如轮式底盘,且开发成本高、周期长。他们更倾向于将资源和精力投入到机器人的上半身智能和操作能力上,以实现更快的技术突破和商业应用。「在需求落地不明朗的时代下,具身智能机器人的核心竞争力在于操作能力而非行走能力,上半身的智能决策能力比下半身的移动性能更为关键。结合人形机器人和 AI 大模型,专注于上半身的开发,是更符合资源和能力的策略。」方舟源启(原方舟无限)的创始人张鑫亮强调,「单纯模仿如特斯拉等行业巨头的做法不可行,应专注于擅长领域的关键技术开发。」决定「先不怼人形」的星海图也分享了类似的观点,许华哲提出,「双足的算法研究有其价值,但从商业落地和效益产生的角度来看,应优先考虑技术的实际应用。在室内环境中,除了台阶外,双足行走的优势并不明显,因此不必过分投入在腿部算法的开发上。」双足玩家们则选择了另一个路径,将移动能力视为人形机器人的基础。今年 3 月,逐际动力双足机器人 P1 在深圳郊野的塘朗山公园进行了零样本、无保护、全开放环境的实地测试,在野外环境中实现了徒步功能。「在 P1 之前,市场上还没有机器人具有这么强的行走能力。而且它最大的特点是能提供在两足结构下,六自由度的简单接口和一个开发平台,让足式机器人的研究人员能进行二次开发。」逐际动力 COO 张力介绍道。紧接着,逐际动力还发布了全尺寸人形机器人 CL-1,实现了从实时地形感知、步态规划到全身控制的全栈闭环,能够动态完成连续大负载搬运、上楼梯、下斜坡、室内外行走和往返跑步等复杂场景。尽管双方侧重点不同,但需要强调的是,无论是操作能力与移动能力,还是灵巧手与双足,它们都并非互斥的关系,只是通往具身智能这同一个终点的两条路径。宇树人形机器人的手部从 H1 的圆疙瘩变成了 G1 的三指灵巧手,可以舞棍、开可乐、砸核桃;智元此前发布的双足人形 demo 远征 A1 配备了灵巧手 Skillhand。星动纪元划分了小星和小星 Max 两款人形机器人。前者设计小巧,注重通用移动能力,适合户外物流和巡检任务,具有简化的手部功能和较低成本;后者则搭载灵巧手,旨在代替成人执行更精细的操作,适用于工厂和家庭环境。紧接着,他们还发布了集成了 12 个主动自由度和触觉传感技术的灵巧手 Xhand,能拿鸡蛋还能撸猫。而就在上个月底,众擎机器人发布双足机器人 SA01,在产品短片的最后几秒,显示出众擎也有进军上半身、灵巧手的计划。众擎的创始人赵同阳是小鹏鹏行前总裁,创业后他曾参观过汽车工厂研究具身智能的落地场景,他发现,人对外唯一能产生价值的部位就是手,因为胳膊和腿代表移动能力,手才能进行精细化操作。「机器人能真正进入工厂,不在于腿和机械臂的能力,而在于手的能力。机械臂的能力在很多年前就已突破,腿的能力在这几年各家都有进展。一条腿或胳膊能放 6 个左右的自由度,但在手那么小的空间,全自由度要放 15-20 多个,半自由度也有 6 个左右。手越精密,成本就越高,越容易坏,难点是在于兼顾灵活度和强度。」如此看来,在具身智能时代,至少在商业落地层面,双足人形机器人并非那个最高效的选择。毕竟,能完成实际任务,已成为了现在对通用机器人的首要期待。有商业服务机器人的从业者提出了顾虑,认为人形机器人很难进入 To C 的商业领域。「正如机器人伦理学里的恐怖谷效应,不少人对人形还是有恐惧的,我们做的服务机器人越夸张越不像人,反而越受商家欢迎。」还有从业者认为,具身智能的终局不会是单一形态的人形机器人。具体而言,具身智能的构型需要通过任务场景加以区分,如果某个机器人的形态能满足场景所需的物理完备性,就没有必要再增加其他形态,否则反而会提高成本。例如,在工厂等许多室内场景下,完成如观察和提醒的任务,轮式机器人已足够应对;而在需要适应复杂地形的巡检任务中,则可能需要双腿或四足机器人。「形态不是最重要的,关键在于机器人是否配备了足够智能的大脑和小脑,以适应不同形态的需求。」雅可比机器人的创始人邱迪聪想象道,「未来更可能会有各种形态的机器人,甚至是像小猫小狗的,人形只是其中之一。」追求「一脑多形」的星海图也主张在智能机器人设计中摒弃对全人形的盲目追求,应以场景为中心的产品开发策略,加速机器人技术的商业化进程,通过在现实世界中收集数据,来提升机器人智能水平,形成正向的飞轮效应。支持多形态路线的,还有将「大脑」视为具身智能核心并以此为主打产品的玩家们。比如,穹彻智能发布的具身大脑 Noematrix Brain 能使实体机器人对无限自由度物体做出操作,如无需预建模即可折叠杂乱衣物,以及执行不规则曲面任务,如刮胡子和削黄瓜皮。在穹彻的计划中,Noematrix Brain 将与各种类型的机器人本体、甚至工业设备都能有机结合。同样专注于开发「通用具身大脑」的还有有鹿机器人,他们也旨在为各类专业机器和人形机器人形态提供通用大脑。最开始有鹿甚至打算仅以软件形式进行销售,但考虑到软件的无形性,很难在前期让客户切实感受到智能性,转而采取软硬件结合的形式,推出通用具身大脑 Master 2000。「这不仅限适用于工业、清洁、物流等领域,如叉车和铲车等,也适用于人形机器人,即插即用。」有鹿机器人介绍道,「具身智能并不局限在人形上。」不过,尽管与其他构型相比,人形机器人的落地速度稍显落后,却依旧受到市场青睐。据高工机器人产业研究所(GGII)分析,中国在人形机器人领域的年增长率预计将超过全球平均速度。2024 年中国的人形机器人市场规模将达到 21.58 亿元人民币,而到了 2030 年,这一数字有望飙升至近 380 亿元人民币。在 2024 至 2030 年间,该领域的复合年增长率(CAGR,每年平均增长率)预计会超过 61%,而销量将从约 0.40 万台激增至 27.12 万台。雷峰网从多位行业从业者与 VC 处获得的共识是:他们认为,人形是机器人领域形态发展的最终目标;如果用自动驾驶的等级类比,即拥有高智能水平的人形机器人是 L4。从商业化的角度来看,具身智能与自动驾驶的发展路径也或有高度拟合。以 L2、L4 区分,若人形机器人是最终目标,那么一部分业者也认为,具身智能时代的人形机器人可以分为 2 种路径:一种是 L2 级别的沿途下蛋,逐步孵化出衍生的商业化产品,并且机器人的躯体形态也逐渐从轮式、足式、双臂、到全身等等;而另一种则是 L4 级的打法,企业从一开始就只做人形机器人,直接求解最难的问题。通过大规模融资来穿越技术的发展周期。自动驾驶的商业化有三类机会:首先是车本身,即 L4 自动驾驶技术的机会;其次是应用场景,即 L2 级别自动驾驶的机遇;最后是传感器、毫米波、智能座舱等供应链技术。对具身智能来说,相似地,机器人从局部到全身整体的蜕变过程,也会带来三类机遇:首先是机器人本体的开发,企业若有条件在初期就推出人形,自然能抢夺市场先机,让后来者很难分一杯羹;其次是场景机会,目前机器人的应用场景相对较少,但这也为行业提供了探索和发展的空间;接着是上下游的机遇,上游包括智算中心的建设、算力芯片和端侧模型等赋能机器人的关键技术;下游则涉及到各种传感器、关节模组,它们相当于机器人的感官系统,包括视觉、触觉和运动感知等等。很显然,在具身智能中,「上难度」的人形机器人代表着需要穿越周期的 L4,甚至是 L5。在一个月前,英伟达 CEO 黄仁勋在 Computex 2024 中提出,与其他类型的机器人相比,与人类体型相似的人形机器人拥有大量的数据来训练,这也是人形机器人会比其他类型的机器人更受欢迎的原因。「大家一直在讨论人形,以前问人形是不是机器人的终极形态,现在问是不是具身智能的终极形态。」艾欧智能创始人陈相羽说道,「这个世界由人创造,很多东西是为人设计的,所以会说人形是最好的形态。」众擎机器人 CEO 赵同阳认为,相对于其它机器人,人形作为终端,主要有三大优势。一方面,人形具有到达全场景、全地形的适应能力,而且采用统一的标准化方案还有利于降低成本;另一方面,以具身智能为核心,双臂加双手操作能力能带来巨大的生产力价值;最后,人形还符合人的审美,具有通用人工智能加持下善解人意的情绪价值。「就像上帝、女娲造人,都是照着自己的形状去设计,做出和自己一样的东西。」具身智能时代的机器人,最终会拥有什么样的形态——这个问题的背后,归根结底是人类创造者对机器人的想象力。而无论是怎样的想象,可预见的未来机器人或许都有类似的含义:一个在视觉、学习、决策等多维度拥有更高智能水平的机器人。一个新的物种,正在硬件与智能的交互中诞生。为了在技术与商业落地上快人一步,具身智能玩家们在构型上对操作能力和移动能力各自做出取舍。整体而言,上肢的操作能力因最能显现智能水平而被寄予厚望,逐渐成为行业焦点。人形机器人的必要性依旧备受讨论,热度不减,作为未来的象征悬在终点线的另一侧。然而,在这场具身智能的诸神之战中,构型作为「身体」,只是最外显的的路径抉择差异。接下来,玩家们还需要面临最核心的关卡:实现智能,攻克软件与硬件的耦合。为了攻克这一关卡,具身智能领域的不同团队也有差异化思考,例如:技术路线上,是选择端到端或者分层决策的「大小脑」?基于模型,还是基于学习更好?模仿学习与强化学习,哪一派更胜一筹?本文作者anna042023将持续关注具身智能,欢迎添加交流,互通有无。
更多内容,点击下方关注:
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。