AAAI 2024 | SO2:从Q值估计的角度重新审视Offline to Online RL
本文将介绍一种极其简洁的 Offline-to-Online (O2O) RL 算法 SO2,只需两个简单 trick:使用加入噪声的 action 来更新 Q 值+增大 Q 值更新频率,就可使 offline-to-online RL 领域的算法性能大幅度提升。
开源代码地址:
https://github.com/opendilab/SO2
1. Halfcheetah 一骑绝尘:仅用 170K Env Steps 就可以在 Halfcheetah 环境上达到 1.3w+ 的累积回报,而 300K 则可以超过 1.6w+。强化学习社区尝试训练过 MuJoCo 环境的同学肯定深有感受:online RL 的最强算法 SAC, 一般需要 3M Env Steps 才能到 1.2w 的累积回报,之后无论再训练多长时间,1.6w 水准的 Halfcheetah 几乎都是遥不可及。
▲ 图1. Halfcheetah 环境训练曲线对比图
2. MuJoCo 一招鲜吃遍天:这种训练方法在所有 MuJoCo 环境和数据集上都大幅领先其他 offline-to-online RL baseline 方法。
▲ 图2. MuJoCo 不同环境和数据集上各类 O2O 算法的表现
引言
离线强化学习(offline reinforcement learning/batch reinforcement learning)可谓是近年来最火热也最重要的强化学习子领域,在各类决策任务中都展现出了惊艳的效果,相关的上下游任务也都发展得十分迅速。其中,基于离线强化学习已经训练收敛的策略,再继续进行后续的在线学习,这种训练方式就是本文研究的核心目标——offline-to-online reinforcement learning。
为了提供一种简单统一的方法来释放离线到在线强化学习的潜力,来自悉尼大学,香港中文大学,北京大学,以及上海人工智能实验室(OpenDILab 团队)等机构的研究者们从 Q 值估计的全新视角出发,结合现在广泛使用的强化学习技术,实现了统一简单高效的离线到在线的强化学习。此外,还提供了关于动作值函数估计偏差分析的相关方法,以及相应的评测分析,深入理解 O2O 领域的挑战与机遇。
论文链接:
开源代码链接:
背景与贡献
2. 提出了一种新算法 SO2,通过引入特定的技术手段减轻上文所述的偏差,提高 Q 值估计的准确性。这些技术包括对目标动作的扰动处理,以及提高 Q 值更新的频率,以加速学习过程并减少由离线训练带来的偏差。
Q 值估计误差问题的分析与评估
▲ 图4. 各类强化学习方法性能对比。其中 Online 方法已特殊标出
首先,本小节会对 Q 值估计误差问题进行详细介绍。上面所示的图 4 对比了多种标准 online RL 方法和使用在线微调的 offline RL 方法的性能。以标准 online RL 方法的结果为基线,可以观察到这些直接使用在线微调的 offline RL 方法——包括 TD3-BC ,CQL,EDAC 和它们的 Loose 变体(减少保守估计的约束),在后续的在线学习中性能提升速度都显著变慢。
为了分析关于 Q 值估计的问题,本文提出了两个量化标准:
1. Q值的标准化差异 (Normalized difference of the Q-value)
2. 基于 Q 值的肯德尔 τ 系数 (Kendall’s τ coefficient over Q-value)
首先,Q 值的标准化差异可以来衡量估计的 Q 值与真实 Q 值之间的差异。具体来说,实验中先计算真实 Q 值和对应的估计 Q 值,其中真实 Q 值是基于当前策略收集的充分延长轨迹上实际获得的回报来计算的,提供了真实 Q 值的准确反映,然后对两者之间的差异进行标准化差异计算,从而提供每种强化学习方法 Q 值估计的误差程度。
▲ 图5. 几种 offline RL 算法 Q 值的标准化差异的对比图
从预训练的策略中回放多个 episode,收集状态-动作对。 使用滑动窗口方法在每个 episode 中选择状态-动作对的集合,记为P_i,其中 i 表示窗口编号。
对于每个集合 P_i 中的所有状态-动作对,计算它们的估计 Q 值和真实 Q 值。
对每个集合 P_i ,计算肯德尔系数,记为 K_i。 计算所有集合的系数的平均值。 最终 τ 的值在-1到1之间,值为1表示完全正相关,-1表示完全负相关,0表示无相关。
▲ 图6. 不同算法 Q 值的肯德尔 τ 系数对比
SO2 方法介绍
扰动值更新(Perturbed Value Update, PVU) 增加Q值更新频率
首先,扰动值更新(Perturbed Value Update,PVU)可以对目标动作进行额外的噪声扰动,以平滑带有尖峰的偏差 Q 值估计。这种方法防止智能体过度拟合于过去可能有效但不一定适用于新情况的特定动作。
这两种技术共同提高了 Q 值函数估计的准确性,并进一步改善了在线学习期间的性能,具体的算法伪代码如下所示:
实验分析
▲ 图8. MuJoCo 环境中 SO2 和其他算法的对比示意图和表格
尽管算法设计非常简单,但 SO2 算法却可以在 O2O RL 问题中表现出非常强大的性能。上图所示的学习曲线对比展示了在不同数量的训练步骤下的性能,SO2 在样本效率和渐近性能方面显著优于所有基准。与其他算法相比,SO2 在利用少量样本时表现出极高效率。同时在经过充分训练后,也可以看到 SO2 在长期训练中的优势。
▲ 图9. 各个算法在不同环境的 Q 值标准差
▲ 图10. 基于随机数据集的SO2与在线强化学习的对比
▲ 图11. Adroit 环境中各个算法的性能对比
▲ 图12. SO2 算法和之前 O2O RL 算法的组合效果
展望
O2O RL仍有很多尚未解决的算法问题和应用挑战,未来的工作将会继续探索和扩展 Q 值估计在离线到在线强化学习(O2O RL)的实际应用。研究如何进一步提高 Q 值估计的准确性和效率,以更好地适应和解决实际应用中的挑战。具体来说,如何进一步优化 Q 值估计方法,提高 Q 值估计的准确性和稳定性首当其冲。这可能包括开发新的算法框架,或对现有方法进行调整和优化。
开源代码地址:
https://github.com/opendilab/SO2
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者