---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----
1. 做具身大模型缺数据?ATM 教你人类视频的正确用法
ATM 是什么?ATM 解决具身大模型的什么问题?ATM 如何解决人类视频打标签的问题?为什么 ATM 比其他方法更省算力?ATM 和 Vila/Copa/Diffusion Policy 有何区别?...
2. 苹果 AI 布局揭秘:迟到的「玩家」如何搅动市场?
苹果作为最晚入局 AI 的巨头近期都有哪些动作?苹果有哪些独特的优势?苹果为何选择自研 AI 芯片,从基础设施布局下手意在何?苹果目前在 AI 的研究进展能看到战略方向吗?从苹果在 WWDC 上的一连串动作看透苹果的 AI 布局 ...3. 高盛研究报告:未来超万亿美元 AI 投资可能回不了本?
高盛的最新研究报告都有哪些重要信息?为何说 AI 巨额投资背后所能产生的回报尚不清晰?业内人士、专家都怎么看,为何持有不同观点?AI 技术如何突破成本,推动经济增长?在受限于芯片和电力资源的情况下,如何做? ...
...本期完整版通讯含 3 项专题解读 + 28 项本周 AI & Robotics 赛道要事速递,其中技术方面 10 项,国内方面 11 项,国外方面 7 项。
本期通讯总计 24922 字,可免费试读至 14% 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元)
要事解读① 做具身大模型缺数据?ATM 教你人类视频的正确用法
事件:在具身智能领域,训练数据匮乏长久悬而未决。UC 伯克利教授 Peter Abbeel 和清华叉院助理教授高阳带领的研究组提出了 ATM 模型,绕开了以往视频预测方法对训练数据的依赖,采用预测视频帧内任意点的未来轨迹为机器人提供演示,进而学习更稳健的视觉运动策略。《Any-point Trajectory Modeling for Policy Learning》最初于 2023 年 12 月 28 日上传 Arxiv,后于 2024 年 2 月 16 日更新,论文已被具身智能领域顶会 RSS 2024 收录。论文共同一作是清华叉院博士生汶川、UC 伯克利博后林星宇和斯坦福大学硕士生 John So,其他作者还包括香港中文大学 Qi Dou 助理教授和 Kai Chen 博士。论文指导老师为 UC 伯克利教授 Pieter Abbeel(通讯作者)和清华叉院助理教授高阳。[2] 1、该工作提出了一种用于策略学习的任意点轨迹建模(Any-point Trajectory Modeling,ATM)方法,通过预训练轨迹模型来预测视频帧内任意点的未来轨迹,使用视频为机器人提供演示,从而减少对动作标签数据的依赖。2、该工作的核心思想在于,ATM 只关心视频中的运动信息,通过效仿游戏引擎的模式,将视频内容视为粒子的结合,然后建模每个粒子的运动来反映整个场景的物理规律, 从而支持模型控制。3、相比基于生成模型的视频预测方法通常需要重建像素级的细节,ATM 的粒子基础轨迹建模能够更真实地模拟物理动态,并且在模型中自然地融合了归纳性偏见(inductive bias),且计算量更少。① 计算量更少是因为 ATM 可以显式地将光照、纹理与运动(motion)分开建模,只关心预测点的轨迹,无需在每个时间步骤都重新计算整个场景的未来状态。② 归纳性偏见指类似物体持续存在(object permanance)的情况,ATM 的表征方法不会出现类似 Sora 生成视频中物体突然出现或消失的情况,确保视频内容在物理上正确。4、ATM 利用大量人类视频训练点轨迹预测模型,经过极少量样本微调可以成功泛化到机械臂运动控制任务上,成功解决可变形物体、多步任务和工具使用等困难的机械臂操作场景。① 论文发布时,ATM 在合成数据集和真实世界数据集上的表现均优于以往方法,平均成功率达 63%(此前 SOTA 成功率为 37%)。5、ATM 论文获得了 RSS 2024 全数审稿人满分评价。[1]1、ATM 的研究背景在于具身智能领域的训练数据匮乏问题一直无法得到有效解决。论文一作汶川在一场访谈中阐述了该工作的缘起。[3]① 与文本数据不同,具身智能领域的输入数据通常是图像等环境观测,输出是精细的动作控制数据,这些数据难以从互联网获得。② 目前机器人领域使用的最大数据集仅包含 2.5 万条轨迹,与语言模型所需的数据量相比差距很大。③ 采集机器人数据十分困难,需要使用特殊的遥操作设备或技术,如 Gello、Mobile Aloha、DexCap、UMI、OmniH2O 等工作使用了不同方式采集数据,但本质上都是在记录观测数据和对应的动作。2、人类的视频(如 Youtube、抖音的内容)含有丰富的物理和运动行为信息,但由于缺乏动作标签,直接从中提取控制信息十分困难。以往采用视频预训练,学习用于具身控制的视频预测模型普遍存在两个问题:① 一方面,以往的视频预测任务通过对每个像素的建模方式会将物理运动与视觉外观(如纹理和光照)耦合在一起。这种耦合使得建模变得困难,通常导致幻觉和不切实际的未来预测。② 另一方面,以往的模型在训练和推理中计算成本高昂,在有限的计算资源下,性能显著下降。③ 此外,高昂的推理成本迫使很多模型采用 open-loop control,这往往导致控制策略不够稳健。3、ATM 的目标在于研究如何从视频中提取有用的经验知识,解决现有视频数据无法直接用于机器人学习的问题。具体而言,该工作希望解决:① 如何从视频数据中有效地学习行为、物理和语义信息,并将其应用于机器人控制策略的学习。② 在缺乏动作标签的情况下,如何从视频数据中提取有用的控制信息。③ 如何通过预训练轨迹模型来降低对大量标注动作轨迹数据的依赖,同时提高机器人学习新技能的效率。1、ATM 目标不仅希望从视频中学习表征,还要学习能够预测未来状态的模型,用来指导控制策略。这种方法将视觉运动策略学习分成两个部分:① 第一部分通过生成具体的子目标来学习下一步做什么,这些子目标纯粹从视频中学习得到。② 第二部分学习预测控制动作以遵循这些子目标,与端到端学习策略相比,这一步骤需要的训练数据更少。2、研究者提出了一个 Track Transformer 来学习视频帧内粒子的运动先验,其架构包含「自监督轨迹注释」和「多模态轨迹建模」两个核心组件。① 自监督轨迹注释部分使用视觉跟踪器处理无动作标签的视频,以生成点的轨迹数据。通过随机采样帧和点,然后利用跟踪器生成这些点在视频序列中的轨迹。② 多模态轨迹建模部分将轨迹预测问题形式化为多模态掩码预测问题。模型先将轨迹点、语言指令、图像三种模态数据编码到一个共享的嵌入空间,用 token 表示。然后把所有 token 输入一个大型 Transformer,再将轨迹 token 解码为对应点的未来轨迹。3、在 Track Transfomer 的基础上,ATM 讲学习一个规划策略,该策略能够根据观察到的状态和预测的轨迹来预测控制动作。① 策略学习的核心是一个轨迹引导的策略网络,该网络接收「当前观察(图片)」和「预测的轨迹」两个输入,然后输出相应的动作。② 在策略学习期间,预训练的 Track Transformer 会被冻结,即不进行进一步的训练。预测的轨迹直接用作策略网络的输入,充当子目标,用于引导策略网络生成动作以实现这些轨迹。③ 这种方法将复杂的策略学习问题转化为更简单的子目标跟踪问题,随着轨迹预测提供详细的指导,策略网络逐渐减少对语言指令的依赖,转而更多地依赖于预测的轨迹来进行任务。4、研究者用 130 个基于语言的仿真任务测试了 ATM 的能力,其性能表现高于此前 SOTA 80%。① 实验环境采用 LIBERO benchmark,并将其分成了 5 个套件,其中 4 个套件各含 10 个任务,1 个套件含 90 个任务。实验对比了 ATM 和 BC、R3M-finetune、VPT 和 UniPi 几个基线在各套件中的表现。5、由于人类视频数据量远大于机器人视频数据量。研究者还测试了 ATM 从人类或不同机器人执行任务的 cross-embodiment 视频中学习的效果,以验证模型的 scalability。① 总体而言,实验证明了在附加的 cross-embodiment 视频上训练轨迹模型,可以提高轨迹预测的稳健性和准确性,显著提高策略学习效果。
图:(a)LIBERO 任务的 4 个套件,分别侧重于空间推理、对象推理、任务远景、任务理解和操作策略的不同方面。(b)不同套件的定量比较结果和快速计算套件(90 个任务)的比较结果,在所有任务中,ATM 的表现都优于基线。
高阳在一次访谈中简单介绍了 ATM 和以往两种典型的通过人类视频学习工作的区别。1、一种典型的方法是直接使用视频预测,代表工作是伯克利 Pieter Abbeel 组的 UniPi。① 这种方法采用视频学习,通过预测的视频帧,逆向工程推导出机械臂的动作,并执行这些动作。② 其优势在于端到端的训练流程,直接使用视频数据训练视频预测模型,随后利用该模型的输出训练用于恢复机器人动作的逆动力学模型(inverse dynamics model)。③ 由于需要先生成视频,这种方法存在计算量过大的局限。如一段 3-5 秒的视频或许要消耗十到三十分钟。2、另一种方法是抽取操作物体的接触点和操作物体一瞬间的运动方向来预测。代表工作是 CMU Deepak 组的一些工作。