Bendi新闻
>
英伟达专家分享AI Agent最新开发经验!(专业长文,建议收藏)

英伟达专家分享AI Agent最新开发经验!(专业长文,建议收藏)

7月前
 点击订阅,抓住风口

3月28日,王煜全在直播中和大家详细解读了英伟达GTC2024,站在科技和产业的角度和大家分析了英伟达的未来前景,AI变革的下一轮机会。

直播中,王煜全告诉大家,GTC2024共用1010场开发者、专家分享,有非常多前沿动态值得关注。

今天,创新地图的小伙伴就为大家带来Jim Fan 英伟达研究经理的最新分享,以及现场问答。

Jim Fan的研究领域涵盖AI基础模型、策略学习、机器人技术、多模型学习和大规模系统,目前关注AI最前沿的AI Agent开发。

以下是整理后的内容实录,如果你想了解更多科技产业前沿趋势,欢迎点击文首入口,加入前哨科技特训营。

Jim Fan演讲内容




我来跟大家分享一个2016年春天上课的故事。

我那时并没专心听课,反而在看一个棋类游戏的比赛。这不只是一场比赛,它很特别。比赛是DeepMind AlphaGo对战AI,AI赢了五场中的三场,成为第一个击败人类冠军的AI。

我仍然记得当时兴奋的感觉,第一次看到AI Agent战胜人类,展示出了技术无限的可能,但很快我意识到AlphaGo只能下棋,它不能玩其他游戏,也不能洗衣服。

我们想要的是像《星球大战》中的机器人那样多才多艺的AI Agent。要达到这个目标,我们需要关注技能数量、控制力和实际情况。

我一直在思考如何实现这个目标。今年早些时候,在老黄的支持下我创建了Gear实验室,接受研发通用人工智能的挑战。

站在今天,要研发通用人工智能需要什么呢?

首先,需要能够开放编辑的环境。

Agent的复杂性由环境决定,地球的多样性使得自然演化能够产生多种行为,开发聪明的智能体也是如此。

如果我们有一个模拟器,它基本上是一个简化的地球,我们可以在它上面运行,为Agent提供大量的预先训练的数据。这些数据只是一个关于如何做事的参考手册。最后,我们需要一个可以处理这些大数据的模型。

这个想法导致我们选择了Minecraft,一个非常受欢迎的视频游戏。

对于不熟悉的人,Minecraft是一个由3D方块生成的世界,你可以在里面做任何你想做的事情。Minecraft的特点是没有明确的目标,这使得它非常适合作为一个开放的模拟器。

在Minecraft中,我们看到了很多令人印象深刻的创作,比如有人建造了霍格沃茨城堡的模型,还有人建造了一个有功能的大型神经网络。

Minecraft有1.4亿用户,这是英国人口的两倍多。这些活跃的游戏玩家产生了大量的数据。

问题是,我们如何利用这些数据?这就是我们使用Mine Dojo的原因,它是一个新的框架,帮助开发者使用Minecraft开发AI Agent。Mine Dojo包括一个模拟器和一个数据库,并提供了一些API,可以帮助我们解锁游戏的潜力,完成很多自定义工作。

其次,要有训练Agent的数据。

我们想让一个机器人建造房子,必须先回答什么是房子,建造房子该怎么做?简单的语言规则中很难定义。

我们最开始想到的就是用互联网知识训练基础模型,让AI Agent能理解并利用这些知识。

这很困难,因为我们的数据库包括视频、Minecraft的页面和子论坛。我们收集了很多Minecraft的视频和页面,感谢玩家们很热衷于讨论各种游戏的细节,让我们得到足够多的数据。

现在我们要开始训练了。

第一步很简单。我们尝试对YouTube的视频剪辑进行对齐,把那些教授人类玩家的教程视频变成可以用来训练AI的数据。

然后我们可以通过一个叫做“压缩学习”的过程来训练,基本上就是把视频和文字压缩在一起,让AI学会各种操作的关系

开发中我们喜欢称这个过程为通过人类反馈来加强学习,本质就是用玩家分享的视频教会Agent该怎么做,最终Agent在Minecraft里走路这件事做得比AlphaGo好。

但这里仍然有个问题,我们必须手动设置每个任务的目标,一个技能一个技能训练AI,每个技能都必须有教程才行,能不能让AI自己学会新的技能?

于是我们用上GPT4,通过它的编程和规划能力,Agent可以无休止地玩游戏,一个名为Voyager的Agent就一直在游戏中,穿越地形,和怪物战斗,制作各种配方。

我们是如何实现的呢?多亏了一个叫Flare的开源Minecraft模组,Voyage利用GPT4生成javascript代码,积累技能,进行各种操作。

就像人类工程师一样,AI编码总会有Bug,所以我们开发了一个自我反省的系统来帮助它优化。

自我反省关注三个方面:javascript程序错误,Agent的身体状态和环境状态。

Agent会采取的行动,如果代码成功执行,就会观察世界和自己的变化,思考如何能做得更好,尝试更多的行动,然后重复这个过程。

对人类而言当技能成熟,它就会被存储在记忆中。你可以把记忆看作是通过试错编写的代码库,Agent也一样,所以它遇到相似情况,可以从库中查找技能,然后解决问题。

让我们来看看一个例子,Agent的饥饿条下降得很厉害,所以它需要找到食物。

它开始思考,种子怎么样?我可以种一片农场。但这会花费太长时间。所以,很抱歉,它打开代码库,找一个旧技能来制作铁剑,然后开始学习一个新技能,叫做狩猎。

没有了生存需求,Voyager是如何保持兴趣的呢?我们可以给Voyager一个高级的直接指令,那就是尽可能获取新奇的物品,在GPT4的驱动下,Voyager能够不断发现新技能。

我们没有预先设定其他的要素,Agent因为好奇一直在探索,获取尽可能多的新奇物品,学会新技能。

Agent已经在虚拟世界中学会了很多技能,那下一步它能不能运用到现实中呢?

这就需要解决人工智能和机器人的跨学科问题,所以我们创建了一个模型metamorph,让它编写机器人的电机控制,因为我们想让AI拥有适配不同机器人的通用策略。

采用与Minecraft中相同的训练策略,我们为AI大模型设定了一个目标,并让它自己判断是否成功,仅仅通过视频数据就训练不同的虚拟机械人完成复杂的任务,成功地进行物理模拟,速度比实时训练快1000倍,一个虚拟环境中的AI机器人只用三天的模拟完成了十年的训练,学会了令人印象深刻的武术技能。

这一切都可以在英伟达的Isaac Sim中完成。

接下来,我为大家展示Euraka实验项目。

开发机器手的操作,通常需要人类工程师反复调整,花费很多时间,只有非常熟悉的工程师才能完成。

现在有了基于AI大模型的奖励机制,就可以训练Eureka主动获得奖励,并自动反馈结果,强化学习。

Eureka还会自己设定目标,能找到比专家更好的奖励标准来训练机器手旋转笔。

我希望Eureka的下一代将成为一个完全自动化的平台,以训练更好的Agent并进行迭代。我的梦想是有一天我可以悄悄过一个长假,Eureka自己继续工作,并向我报告进度。

不过这事不能让老黄知道。

我相信训练都是相似的,所有的语言任务,无论是表达文本还是计算税收,都可以通过ChatGPT接受收入,并输出行动完成。

昨天,老黄发布了英伟达的人型机器人计划,我们的任务就是创建一个AI大模型驱动的机器人,并让它看起来像人。

为什么要让它看起来像人呢?因为人的形态是最常见的。我们生活的世界是为人类设计的,所以我们能做的事情,一个先进的机器人理论上也能做。

我很高兴能和一群领先的人一起工作,让AI大模型能够学会各种技能,并转移到真实的世界里。

我相信,在我们的未来,所有能动的东西都会动,就像在《机器人总动员》《星球大战》和《头号玩家》中看到的那样,这就是我们的目标,把通用人工智能带到开放的世界中。

欢迎大家加入我们的旅程。

现场问答




提问人1:很感谢Jim。我对接下来的事情感到兴奋。我很好奇你怎么看这两条开发路线,用GPT-4学会所有的技能操作游戏中的AI Agent,或者像你说的用GPT-4进行强化学习,教会另一个AI完成任务。你觉得哪种方法更有效,或者可能是它们的结合?Jim:我觉得这是个好问题。

Jim Fan:人脑中系统1是快速反应,而系统2是缓慢的高级推理。你的大脑有慢速部分,比如设定奖励目标,检查问题,也有快速部分进行自动化控制。

使用GPT4的问题在于总要输出文字进行控制,这永远会有一个延迟,所以我认为两条路线会有区别。

提问人2:我的问题是Nvidia的Gear实验室目的是什么?你们只是做研究,还是打算生产一个高级解决方案给机器人公司?

Jim Fan这是一个很好的问题,我认为Gear的定位就是使命驱动。

从根本上说我们还是一个研究实验室,并不是方案提供商,一个主要原因是现在并没有成熟的机器人硬件标准。

世界上没有人真正知道如何开发机器人,这就是为什么对于机器人行业模拟很重要的原因,需要通过模拟来确定有用的机器人是什么样。

就像现在的人形机器人,大家都期待家里有一个可以做所有脏活的人形机器人。

要实现它,需要确保机器人能工作,然后要能大规模部署,还要有AI模型提供智能,这一切都还没有准备好,所以朝着这个愿景进发更像是使命驱动。

提问人3:现在很多人都担心AI对现有职业和教育的冲击,请你分享一下学生和教育体系该做些什么呢?

Jim Fan现在AI的一个好处是学习门槛已经大大降低。任何中学生都可以注册一个账户,然后开始使用AI,开发AI Agent。

他们甚至可以在不花费太多资金的情况下,复制前面提到的Voyager,代码是开源的。

现在的AI门槛已经降低到,高中生不会代码也能参与,所以我希望年轻人能从中学开始就使用AI大模型,做一些API开发。

【前哨科技特训营第四季前瞻】


1. 前哨科技特训营直播课程第四季(2023年)共50讲+,除此之外还有5节加餐+公开课。

2. 每讲承诺为1小时视频内容,实际平均时长为2小时。

3. 每周四晚八点准时直播,会员可无限次观看回放。

4. 新入会员,可以无限次回看之前所有视频课程。

5. 成为会员即可使用【AI王煜全】,最新AI大模型开发的专属科技分析助手

6. 每周组织【前哨·创新启发局】,链接科技/产业一线人士,打开技术/应用前沿视野

7. 优先获取全球科技产业一线游学、访问机会,接触科技/产业专家,获取最新、最前沿的趋势洞察,人脉链接

8. 本课程为虚拟内容服务,年费订阅服务制。一经订阅概不退款,线下活动需另行支付差旅成本,请您理解。

课程咨询】
请加“创新地图助手”:
微信:innovationmapSM

微信扫码关注该文公众号作者

来源:全球风口

相关新闻

世界顶级风投a16z创始人对谈AI与创业,信息量爆炸!(两万字长文,建议收藏)一文盘点2023年度最热AI工具,建议收藏!(附汇总文档)干货分享|​​​一张图读懂:战略的前世今生(专业收藏文)差点抑郁的那3年,我悟出1个无敌心态!(建议收藏)这个寒假,父母只需做到这7管3不管,你的孩子想不优秀都难!(建议收藏)2024年,中国10大最赚钱的机会!(建议收藏)2024,最适合孩子的《寒假作息时间表》,太详细了!(建议家长收藏)十投九中!几乎不退稿的MR发文套路,速来领!(附万字长文免费干货)英伟达最新GPU和互联路线图(2024)失传800年的「国宝绝技」,找回来了!美得举世无~双(强烈建议收藏)英伟达最新技术分享:手把手教你用Llama 3.1合成数据改进模型!附代码事关所有人!影响未来十年!特朗普再次当选总统会发生什么?(长文解读)(此文含金量极大)AI+GPT搞钱的新路子,快上车!!!(此文含金量极大)AI搞钱的新路子,码农快上车!!!(此文含金量极大)AI搞钱的新路子,快上车!!!大咖讲座|《解读美国心理学专业》波士顿大学教授直播分享!(助力营专享)入局大模型!值得开发者好好看一看的 AI 入门法!(内附教程)| 极客时间211博士投稿孟德尔被秒拒!MR难道真的已经不行了……(0元领万字长文干货)老黄最新采访出炉!自述61年坚持成就了英伟达,AI革命点燃全世界AMD如何挑战英伟达,苏姿丰这样回答!|万字长文万字长文总结多模态大模型最新进展(Modality Bridging篇)Peter Thiel 最新分享:AI 发展仍处于不确定阶段;如果英伟达有谷歌这样的垄断地位,那现在还是白菜价SGLT-2i规范用药30问(下)!《基层2型糖尿病患者SGLT-2i使用专家建议》重磅发布!英国心理学PhD学长分享:跨专业申请英国心理学硕士指南(Conversion项目)|直播回顾
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。