RoboUniview :视觉语言大模型控制机器人新SOTA!突破机器人相机限制!
点击下方卡片,关注“CVer”公众号
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
AI/CV重磅干货,第一时间送达
添加微信:CVer5555,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
添加微信:CVer5555,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
RoboUniview :视觉语言大模型控制机器人新SOTA,突破机器人相机限制,更好的理解物理世界,为一个模型部署不同机器人本体提供可行方法。
项目主页:Visual-Language Model with Unified View Representation for Robotic Manipulaiton
代码:github.com/liufanfanlff/RoboUniview
论文:https://arxiv.org/pdf/2406.18977
利用视觉语言模型(VLMs)进行机器人操控是一种新的范式,旨在增强模型对新物体和指令的泛化能力。然而,由于摄像头规格和安装位置的变化,现有方法在不同的机器人平台上表现出显著的性能差异。为了应对这一挑战,本文提出了一种新方法RoboUniView,它将视觉特征提取与动作学习解耦。我们首先通过在容易获取的数据上进行预训练,从多视角视图中学习统一视角表征,然后从这个统一视角表征学习控制机器人操控的动作。这种统一视角表征更准确地反映了物理世界,并不受机器人平台摄像头参数的限制。得益于这种方法论,我们在具有挑战性的CALVIN基准测试中实现了最先进的性能,将D-D设置中的成功率从88.7%提高到96.2%,在ABC-D设置中从82.4%提高到94.2%。此外,我们的模型展现出了卓越的适应性和灵活性:它在未见过的摄像头参数下保持高性能,可以利用具有不同摄像头参数的多个数据集,并且能够跨数据集进行联合跨任务学习。我们提供了代码以便重新实现 :
https://github.com/liufanfanlff/RoboUniview
研究背景:
基础模型的最新发展取得了显著的进步,其展示了在视觉问答(VQA)、开放词汇的目标检测和分割以及综合的文本-图像理解等多种任务中的强大能力。这些成就无疑激励了进一步研究如何将这些模型的能力有效整合到机器人控制系统中。在这一势头的推动下,学术界涌现出了大量优秀的方法。但是,现有利用视觉语言模型进行机器人操控的方法在不同机器人平台上的表现存在显著差异,主要原因之一是摄像头规格和安装位置的差异,使得模型难以从不同的图像中准确理解真实的物理空间,从而影响其动作预测的准确性。我们通过最先进的方法RoboFlamingo验证了这一点,发现仅在推理过程中更改摄像头参数就会导致成功率显著下降,从86.3%降至80.8%。尽管一些方法正试图解决这一问题,例如RT-X通过更多的数据收集来训练模型,3D Diffusion Actor通过在输入中添加深度或点云,但这些方法无疑增加了工作量和硬件成本。
为了解决这些局限性,本文介绍了一种新颖的视觉-语言模型RoboUniView,其具有用于机器人操作的统一视图表示。具体来说,它将视觉特征提取与动作学习解耦。在视觉特征提取方面,它将多视角视图统一为一个统一的视图表示。为实现这一点,我们受到了BEVFormer的启发,提出了一种即插即用的模块UVFormer,该插件可以集成到任何多模态模型中。该模块在3Doccupancy任务上进行了预训练,输入为多视角视图和相应的摄像头参数,输出为3D网格中每个单元的占用状态和RGB值,从而更深入地理解真实的物理世界。值得注意的是,我们的预训练任务只需要简单的RGB-D图像,不需要昂贵的手工标注(如语义分割、物体、动作等)。
在动作学习方面,它直接从统一视图表示中输出机器人动作,遵循OpenFlamingo和RoboFlamingo的设计,利用公开的预训练视觉语言模型(VLMs)整合视觉和语言信息。大量实验证据表明,我们的模型更好地理解了真实的物理世界,并且在性能上显著优于所有现有方法。它还表现出强大的泛化能力,即使在具有未知摄像头参数的机器人中也能保持高性能。在CALVIN数据集上,这是一个广泛认可的用于长期语言条件任务的基准,RoboUniView在设置中将成功率从88.7%提高到96.2%,在设置中从82.4%提高到94.2%。此外,我们的模型表现出卓越的适应性和灵活性:它在未知摄像头参数下仍能保持高性能,可以利用具有不同摄像头参数的多个数据集,并且能够跨数据集进行联合跨任务学习。如图所示,RoboUniView能够捕捉真实的物理环境并输出有效的动作。
方法:
整个RoboUniView框架如图所示。在前向过程中,多视角图像通过视觉编码器(Vision Encoder)提取腕部图像特征和统一视图表示。然后,这些特征与语言标记在特征融合解码器(Feature Fusion Decoder)中结合,以提取综合的视觉-语言特征。最后,这些特征通过策略头(policy head)执行机器人操作。训练过程分为两个阶段:在预训练阶段,视觉编码器在一个大型易获取的RGB-D图像数据集上进行训练,以学习稳健的统一视图表示;在微调阶段,模型通过使用配对的图像和动作数据,从统一视图表示中学习预测机器人动作。
实验结果:
我们使用Split D训练集中的示范数据对RoboUniView进行微调,并在从Split D测试集的片段上评估其模仿性能(D->D)。RoboUniView在所有指标上显著优于所有方法。任务1的成功率从0.887提高到0.962。更令人印象深刻的是,在连续任务序列中,RoboUniView将任务5的成功率从0.349提高到0.563,平均成功序列长度从2.968增加到3.855。这个结果尤其值得称赞,因为随着任务的推进,后续任务的复杂性和挑战性显著增加。这主要是因为每个后续任务的初始状态严重依赖于前一个任务的完成状态,导致初始条件的多样性增加。
我们还在Split ABC上微调RoboUniView并在Split D上测试(ABC->D),其中Split D呈现出与Split ABC完全不同的视觉环境。如表所示,RoboUniView将任务1的成功率从0.824提高到0.942,平均成功序列长度从2.47增加到3.647,与最佳方法相比,这展示了RoboUniView在零样本泛化方面的强大能力。
为了进一步验证我们方法的有效性,我们还以RoboFlamingo为基线进行了三项有意义的实验:
1.在D分割上训练,并在摄像头参数改变后的D分割上测试。
2.在D分割上使用两组不同的摄像头参数进行训练,并在D分割上进行测试。
3.在D分割上使用两组不同的摄像头参数进行训练,每组包含不同的任务,并在D分割上测试所有任务。
结果如表所示,我们的模型展现出了卓越的适应性和灵活性:它在未见过的摄像头参数下保持高性能,可以利用具有不同摄像头参数的多个数据集,并且能够跨数据集进行联合跨任务学习。
总结:
本文介绍了一种新颖的视觉-语言模型RoboUniView,其具有用于机器人操作的统一视图表示,并提出了这种统一视图表示的预训练方法。RoboUniView在基准数据集上达到了最先进的性能。
此外,各种实验表明,我们的方法在不同摄像头参数的数据上具有显著的泛化优势。这些优势显然为我们的下一个目标铺平了道路:在多样的机器人数据集上训练一个全面的具身智能模型,以掌握所有技能并部署在各种平台上。
何恺明在MIT授课的课件PPT下载
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!
CVPR 2024 论文和代码下载
CVPR 2024 论文和代码下载
在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集
Mamba、多模态和扩散模型交流群成立
扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer5555,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
▲扫码或加微信号: CVer5555,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
微信扫码关注该文公众号作者