ICRA 2024:「具身智能」热度飙升,「学习」成机器人行业共识
作者丨赖文昕
编辑丨陈彩娴
过去一周(5.13-5.17),国际顶级机器人学术会议 ICRA(IEEE International Conference on Robotics and Automation)在日本横滨举办吸引了全球机器人领域的研究者、企业及学生,共同探讨机器人领域最新的科学进展和产业成果。
今年 ICRA 大会的主题设定为「CONNECT+」。
大会最终截稿日期是 2023 年的 10 月 21 日,收到 3937 篇论文,与去年的 3125 篇相比,提交的论文数量涨了约 25.88%;经过一个月审核,最终接收 1765 篇论文,论文接收率为 45%,比去年略涨 2%,论文主题覆盖了如双足机器人、人体检测和跟踪、人机交互、机器人学习、安全和监控机器人系统、3D重建、无人机系统、人工智能、农业自动化、行为树和大数据分析等等领域。
除论文数量的显著增加外,本届 ICRA 还有 119 家企业参与展会,吸引了美国亚马逊、波士顿动力,德国库卡,日本本田研究所,以及中国宇树科技、非夕科技、逐际动力、艾欧智能、求之科技、方舟无限等等一众机器人团队的参会。
换言之,ICRA 2024 不仅展现了学术界的深度交流,更象征着全球工业领域机器人团队之间的一场巅峰对决。
在 ICRA 2024 的展会现场,参会者可以看到这样的奇观:
机器狗、轮式机器人、双足机器人等等一众「机器生命」在会场「自由走动」,参会者们聚集在它们身边,俨然一场赛博朋克版的迪士尼花车巡游。
展会中大部分企业都选择展示 live demo,且与往届相比,demo 质量越来越高。
比如,逐际动力这款双足机器人 P1,把在森林里怎么打都不倒的经典场景,在 ICRA 2024 现场再次重现。
「若干年前机器人会议上的机器人都只能打个招呼或者站着不动,这次出现的机器狗都能动、还能踹,说明鲁棒性非常高。」清华大学交叉信息学院助理教授、具身智能实验室主任及星海图的联创许华哲告诉 AI 科技评论。
此外,人形机器人也成为 ICRA 的亮点,如中国企业宇树科技在大会期间发布的 9.9 万人形机器人引起了国内外参会者的热烈讨论。不难看出,人形机器人成为机器人领域的一个新兴方向,尤其在大模型风潮下与具身智能一同崛起。
一个趋势正在发生:ICRA 上关于机器人的内容已经从以传统的控制为主,到关注机器人的学习、操作等。国内外的机器人研究领域都在关注同一个问题:如何让机器人更智能?
但与此同时,AI 科技评论也关注到,虽然大模型落地端侧(如手机、机器人)是过去一年 AGI 讨论中的重要主题之一,ICRA 2024 大会现场的「大模型踪影」却寥寥无几。一方面,这是因为机器人的行业特点,「有自己的节奏」;另一方面,ICRA 聚焦在学术探讨上,大模型在论文演讲中的比重远远超过展区成果展示。
迈入2024年后,人形机器人领域频频传出重大进展:
特斯拉发布了更新版的擎天柱机器人行走视频,其行走的稳定性和自信心态均有显著提高,尤其在转弯时的表现也相当出色;
人形机器人初创公司 FigureAI 宣布获得了包括亚马逊创始人贝索斯、英伟达、微软以及 OpenAI 在内的投资,总额达6.75亿美元;
英伟达于3月19日举办的2024年度GTC大会上,展出25款人形和机械臂机器人。
在 ICRA 2024 的机器人方阵中,最炫酷吸睛的绝对是与人类最相似的人形机器人。
值得关注的是,这次参会的双足人形机器人企业主要是中国公司。
最受瞩目的产品之一是宇树科技的 G1 人形机器人。G1 以最低9.9万元的售价,在机器人业内扔下一枚超高性价比的炸弹。
与之相比,特斯拉的擎天柱机器人给出的目标价位为2.5万美元,折合人民币约18万元。
傅立叶智能带来的通用人形机器人 GR-1 高165厘米,重55公斤,最高行走速度为每小时5公里。使用电动执行器的 GR-1 本体拥有40个自由度,可承受近50公斤的重量。
乐聚机器人推出的「夸父(KUAVO)」人形机器人则是一款全尺寸高动态双足仿人形机器人,最大行走速度可达5km/h,跳跃高度可达20cm。
「国内公司在硬件方面整体上优于国外,性价比较高,这是得益于国内的供应链优势。」方舟无限创始人张鑫亮向 AI 科技评论分析中国企业崛起的原因。另外,中国公司还展出了很多机器人零部件和整体解决方案。
那为什么人形机器人会成为 ICRA 2024 的一大焦点呢?
实际上,电机和机械结构设计已发展多年,硬件早已不是问题。但在没有大模型和 AI 的年代,机器人只能进行简单的动作但无法做出智能决策,要应用传统视觉技术,一个机械臂就足够了。
因此,过去人形机器人可能没有太大的意义,仅仅是硬件产品并没有实际应用。
随着 AI 技术的发展,机器人的能力上限不断被突破。科研和商业探索的深入,也加速了人形机器人时代的到来,使得开发这一形态的产品变得有意义。
「大模型让机器人可以不只是简单动一动,而是有希望做一些智能决策,(以人形)收拾桌面或参与工厂工作。」张鑫亮说。
不难发现,人形机器人是 ICRA 2024 当时无愧的焦点,但从实用性角度出发,其实际场景应用及商业落地,却一直备受争议。
「展会上的人形机器人硬件没问题,能动能走,但在智能化层面来讲,离真的智能化机器人很远。」地平线机器人事业部生态负责人胡春旭告诉 AI 科技评论。
特别是对于双足人形机器人而言,腿上每个关节都需要电机,机身需承受高负载,这使得整体成本变得十分昂贵。
另外,双足行走的控制算法开发难度大,需要大量时间进行迭代。即使上半身的控制算法已经完成,腿部的控制算法也无法简单地迁移过来。
「为了满足科研用户在双足运控算法上越来越强的需求,我们先对点式双足机器人 P1 进行了产品化,这个独特的形态,让大家不需要一上来就做全尺寸人形、几十个自由度的复杂算法研发,并配备丰富的二开接口和服务。」张力介绍到 P1 是逐际动力如何赋能人形机器人研发的定位。
出于以上种种考虑,本次参会的部分日本和欧洲公司也没有涉足这一领域。
清华系的星海图目前同样也没有开展腿部机器人项目的计划。
联创许华哲告诉 AI 科技评论,人形机器人在算法上很有趣,但需要投入大量的时间和精力。
「如果真正想将机器人技术应用到实际场景中,需要能快速产生效益和能力。」他分享道。
本次选择通过日本代理商参会的明星公司波士顿动力也曾困于找不到盈利模式的难题。
两周前,波士顿动力的 CEO Robert Playter 来清华交流,告诉许华哲一定要找到赚钱的方法,否则公司就会被不停买卖。
不过,双足人形机器人的产品市场契合度(PMF)其实并不低。
据参会者们分享,目前专注于足式人形机器人的公司主要面向科研市场,因为它们外形酷似人类,全球大量高校实验室对此非常感兴趣,清华大学就购买了许多人形机器人进行研究。
但若想让机器人技术落地到工厂、家庭或超市等场景,就需要考虑更广泛的商业化途径。兼顾大型市场还是只专注于其中一个领域,这取决于机器人公司的战略选择和目标市场的差异。
去年,大模型的成功展示了深度学习具有规模效应,即只要有足够优秀的模型和海量数据,其潜力远超过以往,也促使学术界与产业界对实现真正的通用人工智能(AGI)燃起了希望。
在大模型热潮的影响下,一批机器人或者说是具身智能企业如雨后春笋般创立,希望能够开发出能与物理世界进行交互的智能机器人,完成这个极具挑战性的任务。
「大模型技术的爆发与硬件成本的降低表明了软硬件技术都已走向成熟。」许华哲告诉 AI 科技评论,「过去创业者们常说 move bits not boxes,意指改变数字世界比改变物理世界要容易得多。虽然现在的技术尚未完全成熟到可以解决所有问题,但已足以让人看到解决问题的希望,今年已到达一个成熟的转折点,因此吸引了众多公司投身于具身智能领域。」
在 ICRA 2024 的展会现场,「具身智能」成为了每位参会者热议的话题。
地平线机器人事业部生态负责人胡春旭向 AI 科技评论分享了自己的观察:「现在只要涉及机器人与环境交互,与 AI 结合,都要说具身智能,就跟前两年大家都在说人工智能是一样的。」
「无论是科学家、创业者还是学生,大家都在讨论具身智能。」联合创始人兼COO张力也感叹,具身智能的兴起是他本次参会所感受到最显著的趋势,「通用机器人是一个在技术和商业化落地都还没有共识的赛道,但是在这次全球学者和机器人企业聚首一堂的活动上,我能感受到大家逐步从没有共识,到开始进行收敛,这是一个非常好的现象。」
与传统机器人公司相比,「新生代」的具身智能企业最大的区别在于是否采用了人工智能技术。
传统机器人通常被设计来精确地完成特定任务,如工厂零件分拣机器人或家用扫地机器人,虽各有其功能,但其能力相对有限,内部预设的智能算法较为简单。
新一代机器人的目标则更加通用以及「类人」,比如在家中充当保姆,在工厂中扮演工人,灵活响应各种需求。
「比如优必选更强调自身运动,非夕科技强调力控,展会上展示了控制盘子上的球,这些更多体现了机器人本身的运动能力跟对外界的感知、控制能力。」胡春旭认为,「现在的公司讲具身智能,关注重心不是机器人自身的运动能力,更多的是如何跟外界互动,通过视觉识别外部环境后做抓取、放置等灵活的对外交互工作。」
艾欧智能便参与 ICRA 2024 最具有代表性的中国具身智能企业之一,将 AI 技术与机器人领域牢牢融合在一起。
创始成员都来自腾讯、小鹏团队,艾欧智能通过具身数据采集,构建不同应用场景下的基础数据集,为全球人工智能和机器人研发企业和研究机构提供基础场景数据和验证方案。
传统动作捕捉通常使用光笔或摄像头,限制了活动范围,而艾欧智能则采用惯性捕捉方式,不受地形限制,可自由采集数据,更适合日常生活数据采集,在采集数据的同时还不限制人的行动。
而且,除了动作数据外,艾欧智能还采集视觉、触觉和语言信息等多模态数据。
具体而言,艾欧智能使用安装在头盔上的多个相机来获取视觉信息;通过自研数据手套与数据鞋底获取触觉信息;用麦克风记录语言信息;最后混合所有信息进行机器人训练。
艾欧智能告诉 AI 科技评论,目前他们开源的数据集包含50万条剧本式采集数据以及数百个小时的自由采集数据,涉及几十种技能和数百种被操作对象,全部免费提供给社区供科研使用。
地平线机器人同样也是具身智能企业的代表。
去年年末,地平线分拆了 AIoT(物联网)团队,成立地瓜机器人并对外融资,其定位是提供消费级机器人计算解决方案。
目前,地平线机器人正在研发着支持大模型部署的高性能机器人芯片。
在地平线机器人的事业部生态负责人胡春旭看来,具身智能意味着机器人一定会结合多模态大模型去理解周边环境。
「过去机器人的智能化比较差,但这两年机器人的运动能力已经被解决的相对比较好,现在大家都在关注智能化。」胡春旭向 AI 科技评论解释,「提高机器人的智能化水平一定是基于多模态大模型的基座去做,目前虽然没有很明确的落地案例,但这一定是未来趋势,也是我们重点探索和布局的方向。」
胡春旭称,「大模型芯片在机器人厂商中是刚需,关注的企业很多,但现在关键点在于,一是怎么把大模型调教后放在芯片里跑,二是跑下来后,怎么能很好调试服务于场景,让原来的那些基本算法变得更好用。对于我们来讲,现在可能重点放在前面,让大模型在我们芯片跑得更好,说实话本身上限就是硬件芯片的实际能力、物理水平。」
方舟无限同样是一家新兴具身智能企业,是全球首家具身智能领域量产数据采集方案供应商。
「上一代机器人主要依靠视觉智能,语言智能尚未被整合进机器人系统中,人类大脑决策大部分是双手执行,在机器人中可能是视觉智能和语言智能的结合,所以说 GPT 模型可能是推动具身智能发展的一个关键因素。」创始人张鑫亮谈道,「我们之前理解的人形机器人、四足机器人等更多地偏向于控制上的优势,具身智能机器人追求的是让机器人的大脑更完善,这也是我们的目标。」
同为具身智能企业的逐际动力于2023年发布了其首款人形机器人CL-1,并于今年上半年接连公开该款机器人的遥操作及跑步等技术新进展。
「物理世界是围绕人类设计的,人形机器人以类人的形态,更具有通用性和泛化性,将会成为未来落地应用的最佳载体。」张力谈道。
在 ICRA 2024 上,参会者们聊得火热,也出现了如艾欧智能、地平线、逐际动力与方舟无限这类新兴具身智能企业,但具身智能作为一个新热点,距离商业落地仍有不短的距离,核心技术大多掌握在高校手中,因此许多学者也会参与创业。
「与再次成为热点的自动驾驶技术不同,具身智能尚未真正成熟并能实现量产,所以热点更多地集中在学术界而非工业界。」横跨学术与产业的许华哲解释道。
ICRA洞察:LLM罕见,
在端侧大模型中,尽管底层的 LLM 逻辑均为 MOE(混合专家模型),但在手机端和机器人端的落地路径却十分不同。
两者的应用场景与需求都不同,机器人需要自主移动,因此一定会结合多模态大模型去对周边环境做理解和交互(如怎么穿过椅子去抓取桌面上的物体),与不可能自己跟环境交互的手机端相比,机器人加大模型的组合更强调「具身」智能。
然而,与大模型人声鼎沸的现状不同,在 ICRA 2024中,LLM 在机器人领域的应用十分罕见。
张鑫亮发现,ICRA 2024 会议更侧重于机器人控制等硬件领域,软硬件结合的应用在展会上较为罕见。
「除了我们的产品外,我几乎找不到第二家在自主操作方面使用大模型的公司,除了少数做模仿学习和 Aloha 操作的公司。有的公司使用硬件机械臂进行工业抓取,但依然属于传统视觉,结合模型做抓取的公司在展会上并不多见,要么只专注于模型端,要么只专注于硬件端,与会者中似乎只有我们有同时结合软硬件的苗头。」
*Aloha 是2023年由斯坦福大学等机构推出的一个用于双机械手远程操作的低成本开源硬件系统,可以远程操作并完成组装链条、托举乒乓球等多种任务。
LLM 在机器人踪迹难寻的原因之一,便是当前负责软件与硬件研发的团队并未实现融合。
相反,两组人员分别在两个领域进行研发。大模型团队专注于模型开发,从软件层面着手,待软件完善后再着手硬件的开发。
而另一些人则先从硬件开始,再整合大模型。两个方向分别涵盖的决策领域太多,因此尚未有团队能够同时兼顾两者。
「不过现在专注于硬件并向大模型过渡的团队,以及仅专注于软件开发的团队,都在逐步推进融合的过程。在这一背景下,与大模型最紧密相关的机器人领域就是具身智能。」张鑫亮解释道。
机器人产业本身尚未形成一个稳定且盈利的商业模式,同样是 LLM 尚未在机器人领域广泛展开的原因之一。
胡春旭向 AI 科技评论讲道,「从商业层面来讲,大模型公司肯定会评估机器人企业的商业模式落地,但机器人行业距离大规模批量化的落地,还有很长的路要走。」
不过,在 ICRA 2024上,也有观点认为:机器人当前的研究重点更多集中在解决基础层面的功能性问题(low level issues),而非高层次的认知或决策问题(high level issues),后者在某种程度上已经通过大模型得到了解决。
例如,即使大模型能够规划出做饭的步骤,但如果机器人连冰箱门都无法打开,那么这些高级规划便无法实施。
许华哲告诉 AI 科技评论,「大模型并非当前机器人技术发展的瓶颈,其当务之急是解决物理交互和操作的基本问题,为未来更高级的集成和应用打下基础。随着这些基础问题的逐步解决,大模型在机器人领域的集成和应用将变得更加可行和有效。」
ICRA 2024 展现出机器人领域正在经历一场通向具身智能的范式转变,其核心正是学习(Learning)方法和操纵(manipulation)能力的提升。
众多研究人员和公司正在从传统的机器人方法转向具身智能以及基于学习的方法。同时,集中于机器人操纵能力的工作也越来越多。
与后空翻等酷炫动作不同,如开瓶、拾取、触摸等操纵能力可以直接满足人们生活实际需求,因此也越来越受机器人业内人士的重视。
例如,波士顿动力近期推出两款新型机器人,一款是码垛机器人 Stretch,带有吸盘能分拣物体;一款是人形机器人 Atlas。他们发现,传统的机器控制无法解决操纵问题,「学习」才是新的可行方向。
最后,随着电机的快速发展,本届 ICRA 上的电驱机器人以代替传统的液压机器人成为主力军,业内普遍认为,换上电机后,机器人的爆发力与驱动力会更强。
不少参会者向 AI 科技评论表示,本届 ICRA 并没有带来太多超出预期的惊喜。
具体而言,尽管具身智能的热度飙升,但代表「智能」与「大脑」的大模型并未在行业中得到广泛应用。
通往 AGI 的路何时能从数字世界逐步扩展到物理世界?大模型的出现能否让机器人真的拥有「智能」?
ICRA 2024 尚未见分晓,那便让我们拭目以待。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
微信扫码关注该文公众号作者