上交、斯坦福等联合推出SpatialBot,大模型走向空间智能、具身智能之路
论文链接:
项目主页:
RGB+Depth 可以作为多模态大模型(MLLM/VLM)理解空间的途径,但是:
1. 现有模型无法直接理解深度图输入。比如 CLIP 在训练时,没有见过深度图。
2. 现有大模型数据集,大多仅用 RGB 就可以分析、回答。模型不会主动到深度图中索引知识。
因此,作者提出:
1. 三个层次的 SpatialQA 数据集。在 low level 引导模型理解深度图,在 middle level 让模型将 depth 与 RGB 对齐,在 high level 设计多个深度相关任务,标注了 50k 的数据,让模型在理解深度图的基础上,使用深度信息完成任务。
2. SpatialBench 榜单。精心设计和标注的 QA,测试模型深度理解能力
3. SpatialBot 模型。模型在需要时,可以通过 API 获取准确的深度信息。SpatialBot 基于 3B 到 8B 的多个 base LLM,在 SpatialBench、常用 MLLM 数据集(MME,MMBench 等)和具身数据上取得显著提升。
1. 作者将深度图转化为 3 通道的伪 RGB 图,在兼顾室内高精度、室外大范围场景的需求下,尽可能保留所有深度信息供模型索引。以毫米为单位,囊括 1mm 到 131m。
2. SpatialQA 是 RGBD 的 MLLM 数据集,作者公布了详细的如何将现有 CV 任务的 RGB 或 RGBD 数据集,MLLM 训练集,转化为 SpatiaQA 的 pipeline,以及其中的数据标注细节。
3. 最近大火的 Cambrain-1(LeCun Yann, Saining Xie)提出 MLLM 四大问题,其中之一是物体远近关系判断(proximity)。其实,在此之前,在 SpatialBot 提出的 DepthAPI,就以 99+% 的准确率解决了深度信息和远近关系的问题。
实验效果
数据标注思路和流程
精心设计了关于空间理解的问题,比如深度、远近关系、上下左右前后位置关系、大小关系,并且包含了具身中的重要问题,比如两个物体是否接触。
在测试集 SpatialBench 中,首先人工思考问题、选项和答案。为了扩大测试集大小,也使用 GPT 以同样的流程标注。
训练集 SpatialQA 包含三方面:1. 直接理解深度图,让模型看深度图,分析深度的分布,猜测其中可能包含的物体;2. 空间关系理解和推理;3. 机器人场景理解:描述 Open X-Embodiment 的场景、包含的物体、可能的任务,并人工标注物体、机器人的 bounding box。
DepthAPI
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者