Bendi新闻
>
李飞飞「空间智能」之后,上交、智源、北大等提出空间大模型SpatialBot
李飞飞「空间智能」之后,上交、智源、北大等提出空间大模型SpatialBot
3月前
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
论文标题: SpatialBot: Precise Depth Understanding with Vision Language Models 论文链接: https://arxiv.org/abs/2406.13642 项目主页: https://github.com/BAAI-DCAI/SpatialBot
现有模型无法直接理解深度图输入。比如,图像编码器 CLIP/SigLIP 在 RGB 图像上训练,没有见过深度图。 现有大模型数据集,大多仅用 RGB 就可以分析、回答。因此,如果仅仅简单的将现有数据改为 RGBD 输入,模型不会主动到深度图中索引知识。需要专门设计任务和 QA,引导模型理解深度图、使用深度信息。
在 low level 引导模型理解深度图,引导从深度图直接获取信息; 在 middle level 让模型将 depth 与 RGB 对齐; 在 high level 设计多个深度相关任务,标注了 50k 的数据,让模型在理解深度图的基础上,使用深度信息完成任务。任务包括:空间位置关系,物体大小,物体接触与否,机器人场景理解等。
直接理解深度图,让模型看深度图,分析深度的分布,猜测其中可能包含的物体; 空间关系理解和推理; 机器人场景理解:描述 Open X-Embodiment 和本文收集的机器人数据中的场景、包含的物体、可能的任务,并人工标注物体、机器人的 bounding box。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
来源:机器之心
相关新闻
上交、斯坦福等联合推出SpatialBot,大模型走向空间智能、具身智能之路李飞飞「空间智能」系列新进展,吴佳俊团队新「BVS」套件评估计算机视觉模型失去芒格的首次伯克希尔股东会,巴菲特或透露5大信息;中国金龙指数两周累涨近15%;李飞飞“创业”,瞄准空间智能|一周国际财经对李飞飞老师空间智能的思考!空间大模型SpatialBot来了!李飞飞解读创业方向「空间智能」,让AI真正理解世界李飞飞揭秘创业方向“空间智能”:视觉化为洞察!看见成为理解,理解导致行动!李飞飞揭秘创业方向“空间智能”:视觉化为洞察,看见成为理解,理解导致行动“AI教母”李飞飞创建公司:探索“空间智能”AI教母李飞飞首次创业!成立“空间智能”公司,已完成种子轮章文嵩、蒋晓伟、李飞飞、张凯巅峰对谈:大模型时代的数据智能新趋势「AI 教母」李飞飞创业了!公司方向是「空间智能」OpenAI 或将推搜索引擎,挑战谷歌;李飞飞 AI公司获融资,主打「空间智能」;嫦娥六号发射成功,开启月球之旅 | 极客早知道斯坦福李飞飞首次创业:学术休假两年,瞄准「空间智能」AICon 上海日程确认,蔚来汽车李斌、面壁智能李大海等同台分享,为你呈现 50+ 大模型前沿实践李彦宏内部评璩静风波;美国拟限制“开源 AI 大模型出口”;OpenAI 人工智能搜索产品有望于下周一推出 | AI 周报OpenAI硬怼马斯克:没到AGI,就不开源;求职人潮“挤崩”智联招聘;周鸿祎、李志飞开AI 课,被网友质疑 | AI周报李开复:不参与“价格战”、模型盲测国内第一欢迎 PK李开复:不参与“价格战”、模型盲测国内第一欢迎PK三位OpenAI前员工联手创办,李飞飞等大佬投资,“机器人界的GPT”要被亚马逊收购了?美国拟限制“开源 AI 大模型出口”;百度副总裁“狼性职场言论”惹争议,李彦宏情绪激动点评;谷歌一半员工没干活?| Q资讯李飞飞首次创业:瞄准空间智能;巴菲特股东大会谈AI:与核武器相似;69岁比尔·盖茨被曝主导微软OpenAI联姻 | AI 周报叫板李彦宏、Llama 3 发布,大模型的开源闭源到底在争什么?李开复提出「PMF 不再适用大模型 AI-First 创业,要追求 TC-PMF」,如何理解?李彦宏:开源大模型不如闭源,后者会持续领先;周鸿祎:“开源不如闭源” 的言论是胡说八道