英伟达 Jim Fan:具身智能的难点不是硬件,而是「Foundation Agent」
作者丨赖文昕 马蕊蕾
大模型浪潮一起,被视为是大模型最佳载体的机器人,热度也随之飙升,「具身智能」这个在1950年由艾伦·图灵提出的概念,时隔75年再次成为了 AI 界的宠儿。
2024年才过去不到半年,AI 圈就迎来了 Sora、Claude 3、Devin、GPT-4o 等数颗重磅炸弹,文生视频、AI Agent(智能体)、多模态等多个方向都有了显著的进展。但显然,与屡爆惊喜的模型、应用不同,更「硬」的「具身智能」在产业界掀起商业化与资本狂潮的同时,也面临着需要冷静的现实:大模型并未在行业中得到广泛应用。
那么,代表「大脑」的大模型如何能让机器人真的拥有「智能」?通往 AGI 的路何时能从数字世界逐步扩展到物理世界?
在 5 月 29 日于旧金山召开的一场 GenAI 峰会上,英伟达高级研究科学家、具身智能负责人 Jim Fan 对这些问题展开了深刻的思考。
Jim Fan 在斯坦福大学视觉实验室获得了博士学位,师从李飞飞教授。他的研究领域十分广泛,包括了多模态基础模型、强化学习以及计算机视觉,曾实习于谷歌云AI、OpenAI、百度硅谷人工智能实验室等知名组织。
作为本次 GenAI 峰会主论坛第一位主题分享嘉宾,Jim Fan 分享了对具身智能的见解与对其未来趋势的看法,内容涉及英伟达的最新进展,包括 Mine Dojo、Voyager、MetaMorph 和 Eureka。
以下是 Jim Fan 本次主题演讲的内容,AI科技评论做了不改变原意的编辑:
Minecraft 游戏及其社区具有丰富的数据,这使其成为一个真正的开放式 AI 游乐场。在这个平台上,我们见证了许多令人印象深刻的成果。例如,Minecraft 拥有4000万活跃玩家,这为 AI 研究提供了庞大的数据基础。
我们的研究系统由三个主要部分组成:一个模拟器、一个数据库和一个智能体(Agent)。为了充分挖掘 Minecraft 在 AI 研究方面的潜力,我们设计了一个模拟器 API。
我们认为最好的学习方法是通过数据来学习,这样可以帮助智能体捕捉到像建造房屋这样的抽象概念。此外,我们收集了一个横跨 Minecraft 三个部分的互联网技能知识库。难以想象,有人在维基上逐页列出了 Minecraft 中所有事物成千上万种的配方。
利用这些资源,我们基于对比学习的理念训练了一个编码器模型,称为 Mine-CLIP 模型。简单来说,Mine-CLIP 模型可以学习视频和描述视频中动作的文本之间的关联。
在 Minecraft 中,智能体在探索过程中会生成视频片段,然后将其编码并发送给 Mine-CLIP 模型来计算分数。关联度越高,分数就越高,这实际上就是一个强化学习算法的奖励函数。
我们的智能体经过学习后,能够在各种任务中展示出色的行为。然而,目前的局限性在于,智能体无法自主发现新事物,我们必须手动决定一个任务提示,然后每次针对不同的提示运行训练。
在 Minecraft 中,我们训练出一个名为 Voyager 的通用型智能体,它可以在没有任何人工干预的情况下连续玩几个小时的游戏。Voyager 能够探索地形,使用各种材料与怪物战斗,制作数百种配方,并解锁不断扩展的技能树。
Voyager 的自我反思机制有三个来源:JavaScript 执行引擎、智能体状态和世界状态。
一旦一项技能成熟,Voyager 就会将程序存储到技能库中。你可以将技能库看作是一个代码库,完全由 Voyager 通过试验和错误编写而成。将来当 Voyager 面临类似情况时,它只需从代码库中检索技能并执行它。
Voyager 有一个高级指令,那就是寻找尽可能多的独特物品。
Voyager 本身会执行一个指令,即不断寻找并解决难度逐渐增加的新奇挑战。
从 Minecraft 地图的鸟瞰图来看,最大的橙色圆圈代表了 Voyager 与许多基线方法相比所走的距离。
因为 Voyager 非常喜欢旅行,所以我们给它起名叫"旅行者"。与基线方法相比,Voyager 能够掌握更多的技能,但它仍然只能学会如何控制一个身体。
机器人是用「词汇」
那么,我们能否有一个可以在不同载体上运行的算法呢?
我们创建了一个基础模型 Metamorph,该模型不仅能控制一个机器人,而且能控制数千个具有不同手臂和腿部配置的机器人。
Metamorph 可以丝滑地适应这些机器人的物理结构,所以我们能很直观地用一个「词汇」来描述机器人的身体部位,这样每个机器人本质上就是用这些「词汇」写成的「一句话」。
简单来说,就是把它们转换为 tokens,序列本身作为一个「句子」来描述机器人的形态和运动学特性,就能拥有具有不同数量关节和配置的机器人。
我们用一个巨大的 Transformer 模型来控制这些机器人,它就叫「Metamorph」。但与 ChatGPT 不同,MetaMorph 写出的不是文本,而是「身体」里每个关节上的运动控制。
我们想实现跨形态的通用策略,便把所有「句子」组合在一起,训练一个大型的多任务网络。为了加强训练这些能力,我们教机器人在或平坦或复杂的地形中行走。
在我们的实验中可以看到, Metamorph 可以控制数千种不同的机器人。更有趣的是,如果我们用更复杂的配置来扩展机器人,那么它能够推广到训练期间从未见过的机器人形态。
更多内容,点击下方关注:
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
微信扫码关注该文公众号作者