Bendi新闻
>
世界模型也扩散!训练出的智能体竟然不错

世界模型也扩散!训练出的智能体竟然不错

5月前
机器之心报道
编辑:小舟、陈萍
在图像生成领域占据主导地位的扩散模型,开始挑战强化学习智能体。

世界模型提供了一种以安全且样本高效的方式训练强化学习智能体的方法。近期,世界模型主要对离散潜在变量序列进行操作来模拟环境动态。


然而,这种压缩为紧凑离散表征的方式可能会忽略对强化学习很重要的视觉细节。另一方面,扩散模型已成为图像生成的主要方法,对离散潜在模型提出了挑战。


受这种范式转变的推动,来自日内瓦大学、爱丁堡大学、微软研究院的研究者联合提出一种在扩散世界模型中训练的强化学习智能体 —— DIAMOND(DIffusion As a Model Of eNvironment Dreams)。



  • 论文地址:https://arxiv.org/abs/2405.12399

  • 项目地址:https://github.com/eloialonso/diamond

  • 论文标题:Diffusion for World Modeling: Visual Details Matter in Atari


DIAMOND 在 Atari 100k 基准测试中获得了 1.46 的平均人类归一化得分 (HNS),可以媲美完全在世界模型中训练的智能体的 SOTA 水平。该研究提供了定性分析来说明,DIAMOND 的设计选择对于确保扩散世界模型的长期高效稳定是必要的。


此外,在图像空间中操作的好处是使扩散世界模型能够成为环境的直接替代品,从而提供对世界模型和智能体行为更深入的了解。特别地,该研究发现某些游戏中性能的提高源于对关键视觉细节的更好建模。


方法介绍


接下来,本文介绍了 DIAMOND, 这是一种在扩散世界模型中训练的强化学习智能体。具体来说,研究者基于 2.2 节引入的漂移和扩散系数 f 和 g,这两个系数对应于一种特定的扩散范式选择。此外,该研究还选择了基于 Karras 等人提出的 EDM 公式。


首先定义一个扰动核,其中, 是一个与扩散时间相关的实值函数,称为噪声时间表。这对应于将漂移和扩散系数设为 


接着使用 Karras 等人(2022)引入的网络预处理,同时参数化公式(5)中的,作为噪声观测值和神经网络 预测值的加权和: 



得到公式(6)



其中为了简洁定义,包含所有条件变量。 




预处理器的选择。选择预处理器,以保持网络输入和输出在任何噪声水平 下的单位方差。 是噪声水平的经验转换,  由  和数据分布的标准差  给出,公式为


 结合公式 5 和 6,得到训练目标:



该研究使用标准的 U-Net 2D 来构建向量场,并保留一个包含过去 L 个观测和动作的缓冲区,以此来对模型进行条件化。接下来他们将这些过去的观测按通道方式与下一个带噪观测拼接,并通过自适应组归一化层将动作输入到 U-Net 的残差块中。正如在第 2.3 节和附录 A 中讨论的,有许多可能的采样方法可以从训练好的扩散模型中生成下一个观测。虽然该研究发布的代码库支持多种采样方案,但该研究发现欧拉方法在不需要额外的 NFE(函数评估次数)以及避免了高阶采样器或随机采样的不必要复杂性的情况下是有效的。 


实验


为了全面评估 DIAMOND,该研究使用了公认的 Atari 100k 基准测试,该基准测试包括 26 个游戏,用于测试智能体的广泛能力。对于每个游戏,智能体只允许在环境中进行 100k 次操作,这大约相当于人类 2 小时的游戏时间,以在评估前学习玩游戏。作为参考,没有限制的 Atari 智能体通常训练 5000 万步,这相当于经验的 500 倍增加。研究者从头开始在每个游戏上用 5 个随机种子训练 DIAMOND。每次运行大约使用 12GB 的 VRAM,在单个 Nvidia RTX 4090 上大约需要 2.9 天(总计 1.03 个 GPU 年)。 


表 1 比较了在世界模型中训练智能体的不同得分:



图 2 中提供了平均值和 IQM( Interquartile Mean )置信区间:



结果表明,DIAMOND 在基准测试中表现强劲,超过人类玩家在 11 个游戏中的表现,并达到了 1.46 的 HNS 得分,这是完全在世界模型中训练的智能体的新纪录。该研究还发现,DIAMOND 在需要捕捉细节的环境中表现特别出色,例如 Asterix、Breakout 和 Road Runner。


为了研究扩散变量的稳定性,该研究分析了自回归生成的想象轨迹(imagined trajectory),如下图 3 所示:



该研究发现有些情况需要迭代求解器将采样过程驱动到特定模式,如图 4 所示的拳击游戏:



如图 5 所示,与 IRIS 想象的轨迹相比,DIAMOND 想象的轨迹通常具有更高的视觉质量,并且更符合真实环境。



感兴趣的读者可以阅读论文原文,了解更多研究内容。


为了挖掘和展示人工智能领域具有市场竞争力、技术实力的机构、产品、案例,形成 “鸿雁” 引领效应,机器之心发起 2024 “人工智能 +” 标杆示范征集活动。本次征集将设置《2024 “人工智能 +” 产品标杆》、《2024 “人工智能 +” 创新案例标杆》、《2024 人工智能隐形冠军企业标杆》三大维度,面向全球征集 “人工智能 +” 标杆示范。本次征集结果将于 7 月在 2024 WAIC “人工智能 +” 论坛上公布并进行颁奖。本次征集截至 2024 年 6 月 7 日,最终结果将于 7 月在世界人工智能大会上公布并颁奖。

扫码或点击阅读原文,立即报名。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

来源:机器之心

相关新闻

1890美元,就能从头训练一个还不错的12亿参数扩散模型拍下改变世界的《地出》!阿波罗8号宇航员90岁高龄坠机遇难视频|地球上的外星世界!这里竟然藏着海上“沙丘”!到世界工厂去!一场大模型的产业变革正在发生这名新西兰华人,凭实力火遍世界!她是《三体》主演,也曾“孤立无援”...这部「现象级」纪录片出续集了!一个母亲走遍世界, 寻找教育的答案被许光汉纯爱片安利!传说中的百万夜景!这座海滨城市竟然还是世界篮球迷的最爱?中国版Sora震撼登场,原生16秒直出超清视频!国产黑马火了,世界模型签约多个大客户情绪稳定是你抵抗世界的盔甲!最新研究表明:即使是短暂的愤怒也会损害血管内皮细胞,增加心血管疾病的发病风险世界老鼠最多的城市排名!伦敦和欧洲这些地方都上榜!中国这里也沦陷?!ICML 2024爆火演讲!Meta等揭秘大模型内心世界:不同于人类的2级推理ICML 2024演讲爆火!Meta朱泽园揭秘大模型内心世界:不同于人类的2级推理中国唯一拥有“双机场”的三线城市,以酒闻名世界!高铁45min直达,安逸不输成都,比省会还出名......苹果回应已删照片复活,我国完成世界首例猪肝移植活体人手术,日本或强制苹果侧载,传抖音电商发力,这就是今天的其他大新闻!梅拉尼亚发表声明:“我们都想要一个尊重至上、家庭第一、爱超越一切的世界!”比澳洲更划算?新西兰移民发现:搬到英国也不错!Steam好评98%,小品级“赛博城市模拟器”,手捏银翼杀手的世界!谁见过连一个诺贝尔奖得主都没培养出的世界一流大学?奥特曼在闭门会中说,OpenAI有责任创造更好一个的世界!背后却有大问题!从文字模型到世界模型!Meta新研究让AI Agent理解物理世界首个开源世界模型!百万级上下文,长视频理解吊打GPT-4,UC伯克利华人一作机器人,才是AI世界模型的星辰大海关注!微软在多伦多大量招聘:有100%居家办公!薪资也不错!呼麦手乌尼:安达是民族的,亦是世界的!
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。