Bendi新闻
>
VLM 的下一步是会更靠向支持 Robotics 吗?

VLM 的下一步是会更靠向支持 Robotics 吗?

5月前

专题解读

事件:

近日,ByteDance Research 团队发布了基于多模态语言视觉大模型 OpenFlamingo 的 RoboFlamingo 机器人操作模型,仅简单、少量的微调就可以把 VLM 变成 Robotics VLM,适用于语言交互的机器人操作任务。


目前,虽然大型语言模型(LLMs)和视觉-语言模型(VLMs)作为高层规划者被纳入机器人系统中 ,但是直接将它们用于低层控制仍然存在挑战。大多数 VLMs 是在静态图像-语言配对上训练的,而机器人任务需要闭环控制的视频理解。

同时,VLM 的输出主要包含语言标记(token),其表示与机器人动作有很大的差异,且使用使用私有模型适应低层机器人控制的可能解决方案成本较高,需要在大量的视觉-语言数据上进行协同微调以充分展示其效果。

RoboFlamingo 有哪些核心突破?

1、ByteDance Research 提出的视觉语言操作框架 RoboFlamingo,利用预训练的 VLMs 来理解每个决策步骤的视觉观察和语言指令,使用显式策略头建模历史特征,并仅通过模仿学习在语言条件下的操作数据集上进行微调。
2、RoboFlamingo 只需要很少量的数据来使模型适应下游操作任务,而且 RoboFlamingo 还提供了对于开环控制的灵活性,并可在低性能平台上部署。
3、RoboFlamingo 仅需添加一个用于端到端微调的策略头即可适应机器人操作,解决了:
① 将基于静态图像输入的视觉-语言模型调整为视频观测;
② 生成机器人控制信号而不是仅文本输出;
③ 仅需要有限数量的下游机器人操作数据就能以数十亿个可训练参数实现高性能和通用性。
4、RoboFlamingo 包含 vision encoder、feature fusion decoder 和 policy head 三个模块。
① Vision encoder 模块先将当前视觉观测输入到 ViT 中,并通过 resampler 对 ViT 输出的 token 进行 down sample;
② Feature fusion decoder 将 text token 作为输入,并在每个 layer 中先将 vision encoder 的 output 作为 query 进行 cross attention,之后进行 self attention 以完成视觉与语言特征的融合。
③ 最后,对 feature fusion decoder 进行 max pooling 后将其送入 policy head 中,policy head 根据 feature fusion decoder 输出的当前和历史 token 序列直接输出当前的 7 DoF relative action,包括了 6-dim 的机械臂末端位姿和 1-dim 的 gripper open/close。
5、实验结果表明,RoboFlamingo 只利用了 1% 的带语言标注的数据即在一系列机器人操作任务上取得了 SOTA 的性能。

VLM 是什么?

1、视觉-语言模型(VLM)是一种多模态模型,同时接受图像和文本输入。VLM 可以使用互联网上几乎无限可获得的大规模图像-文本对进行预训练,预训练的 VLM 可以直接应用于下游视觉识别任务,无需微调。
2、VLM 预训练通常由某些视觉-语言目标指导,使其能够从大规模图像-文本对中学习图像-文本对应关系。如 CLIP 采用图像-文本对比目标,并通过在嵌入空间中拉近配对的图像和文本,推远其他图像和文本来学习。通过这种方式,预训练的 VLMs 捕获丰富的视觉-语言对应知识,并可以通过匹配任何给定图像和文本的嵌入来进行零样本预测。
3、VLM 的网络架构
1)VLM 两种类型的网络架构被广泛用于学习图像特征,即基于 CNN 的架构和基于 Transformer 的架构 ......


对于具身智能来说,VLM 有哪些价值或潜力?

1、现有的机器人系统被设计用于特定任务,训练在特定数据集上,并部署在特定环境中。这些系统通常需要大量标注数据,依赖于特定任务的模型,在现实世界场景中部署时存在许多泛化问题,并且难以保持对分布变化的稳健性。
2、传统的机器人规划和控制方法通常需要仔细建模世界、自主体的动力学或其他代理的行为。由于这些模型是为每个特定环境或任务构建的,通常需要随着变化而重建,受到分布变化和泛化能力降低的困扰。
3、VLM 等基础模型引入至机器人领域乃至具身智能领域,是为了赋予机器人系统开放世界的感知、任务规划甚至运动控制能力 ......
① VLM 擅长于需要理解视觉内容和语言的任务,如开放集图像分类、目标检测、分割、视觉问答(VQA)等,通过利用大规模数据集和复杂的神经网络架构 ......
② 根据预训练方法大致可以分为两大类,分别为对比学习模型和生成预训练模型 ......
4、机器人的系统或关键组件主要包括三个方面,分别为机器人感知系统、机器人决策与规划系统、机器人动作生成系统。VLMs 通过结合视觉和语言信息,可以为机器人提供了更全面和深入的环境感知,更有效的任务规划,以及更精确的动作执行能力 ......


RoboFlamingo 有哪些核心突破?VLM 与具身智能的关系是什么?VLM 在具身智能领域有哪些价值和潜力?VLM 未来有哪些研究方向?... 查看完整解读请前往「机器之心PRO」业内通讯 · 2024年度#Week 03

「机器之心PRO」业内通讯 · 2024年度#Week 03

1. 推动 LLM-as-Agent 进入下一步的会是代码语料吗?

什么是以代码为中心的范式?代码语料较自然语言优势何在?以后做 LLM 必须要有代码语料吗?代码预训练的 LLM 做 Agent 会更强吗?...

2. VLM 的下一步是会更靠向支持 Robotics 吗?

RoboFlamingo 有哪些核心突破?VLM 与具身智能的关系是什么?VLM 在具身智能领域有哪些价值和潜力?VLM 下一步可以往哪走?...

3. 「AI for ALL」的 CES 2024 为何褒贬不一

CES 2024 展会整体情况如何?为何外媒、网友评价“让人眼前一亮的 AI 产品并不多”?展会中有哪些亮点产品?反映了今年 AI 的哪些趋势?...


↓↓↓ 关注「机器之心 PRO 会员」服务号,点击菜单栏「收件箱」查看往期通讯。


微信扫码关注该文公众号作者

来源:机器之能

相关新闻

推动LLM-as-Agent进入下一步的会是代码语料吗?推动 LLM-as-Agent 进入下一步的会是代码语料吗?再一次的城市化,会是乡村发展的宿命吗?在哪个州念高中,申请该州的大学会更容易些吗? | FS问答精选激动哭了!A股金针探底,300亿资金紧急驰援,最绝望时刻上演大奇迹日!2760会是本轮的底吗?三星S24系列来了,它还会是今年的演唱会神机吗?“智能化”会是国货家居的制胜武器吗? | 品牌新事智能汽车时代,星闪会是数字车钥匙的最终形态吗?超半数经销商关门,英菲尼迪会是下一个退出中国的豪华品牌吗?【湾区线下 | 读书会报名】《每周工作4小时》书名是认真的吗?「 云集 | 职挂云帆 」一夜暴富的机会来了!连续4周无人中头奖,强力球奖金飙至1亿澳元!下个亿万富翁会是你吗?年轻人会买股票吗?现在的一盘大棋是……五天销量破 2 万,号称最小的​ AI 穿戴设备,会是下一个 Ai Pin 吗?“聊天时更主动的一方,是爱得更多的那一方吗?”VAR 会是 Scaling Law 在视觉生成的新起点吗?“他们是最靠谱的择偶方式了,为什么还会发生弑妻血案?”江豚会是下一个被活活饿死的长江鲸类吗?突发:华盛顿大学支持巴勒斯坦的示威者将解散营地;西雅图国际电影节奖颁了一个大奖给“弟弟”;华州火山会在我们有生之年再次爆发吗?毛豆还在读书吗?是的,而且越读越多了重磅!西海岸主要断层线可能引发 9 级大地震,到时房子会更贵吗?英伟达CEO每天都用,AI搜索会是未来吗?【广而告之】爱奇艺《国际版青春有你》招募开启!下一个星光少年会是你吗?6天翻倍,下一个会是它吗?价不配位:Gucci崩盘 下个会是LV吗?
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。