ICLR上新 | 强化学习、扩散模型、多模态语言模型，你想了解的前沿方向进展全都有

国际科技财经移民娱乐民生时事体育

Bendi新闻

科技

信息技术

8月前

（本文阅读时间：12分钟）

编者按：欢迎阅读“科研上新”栏目！“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里，你可以快速浏览研究院的亮点资讯，保持对前沿领域的敏锐嗅觉，同时也能找到先进实用的开源工具。

本周，全球最负盛名的人工智能盛会之一 ICLR 大会将在奥地利维也纳举办。所以，今天的“科研上新”将为大家带来多篇微软亚洲研究院在 ICLR 2024 上的精选论文解读，涉及领域涵盖深度强化学习、多模态语言模型、时间序列扩散模型、无监督学习等多个前沿主题。

欢迎大家参与文末投票，选出你最感兴趣的论文！我们将于近期邀请论文的作者们与你在直播间进行前沿技术的交流与探讨。

「本期内容速览」

应对深度强化学习中的信号延迟问题

级联强化学习

DyVal：首个大语言模型的动态评测协议

KOSMOS-2：将多模态语言模型同视觉世界连接对应

MG-TSD：基于引导学习过程的多粒度时间序列扩散模型

应对深度强化学习中的信号延迟问题

论文链接：

https://openreview.net/forum?id=Z8UfDs4J46

近年来，深度强化学习（DRL）及其应用迅速发展，它不仅在虚拟任务（如视频游戏和模拟机器人环境）上取得了成功，也在许多具有挑战性的现实世界任务中得到了证明，例如控制托卡马克和通过人类反馈调整大语言模型。然而，导致智能体可能无法立即观察到当前环境状态或其行动无法立即影响环境的信号延迟，在深度强化学习研究中长期存在且经常被忽视。该问题广泛存在于各种实际应用中，对基于深度强化学习解决方案的有效性产生了重大影响，因此该挑战迫切需要研究进行应对。

为了解决 DRL 中的信号延迟问题，研究员们首先通过扩展马尔可夫决策过程框架来定义延迟观测马尔可夫决策过程（DOMDP），从而将信号延迟的情况纳入考虑之中。然后，研究员们在论文中阐明了 DRL 里信号延迟存在的挑战，并展示了常规 DRL 算法和部分可观测马尔可夫决策过程（POMDP）的通用方法受到延迟的严重影响。

针对这些挑战，研究员们提出了一系列新方法，旨在提高存在延迟时 DRL 算法的性能。结合理论见解和实际算法调整，研究员们扩展了传统的 actor-critic 框架，并提出了有效的策略来克服这些挑战。充分的实验结果表明，在具有较大延迟的连续机器人控制任务中，采用该论文提出的方法后，DRL 算法取得了卓越的性能，其结果与无延迟情况相比，性能损失较小。

图1：该论文中的方法（红色虚线）可以在有信号延迟的情况下保持较好的效果，而其他常用的方法在有延迟的情况下表现显著下降（作为对比，黑色虚线是没有信号延迟情况下的表现）。

这项研究在解决 DRL 中一个基本挑战方面迈出了重要的一步，不仅拓宽了其在现实环境中的应用范围，也为自主系统的持续发展做出了贡献。通过开发有效应对信号延迟的方法，研究员们增强了 DRL 的实用性和可靠性，为其在非理想条件下的应用奠定了基础。

级联强化学习

论文链接：

https://arxiv.org/abs/2401.08961

近年来，一种名为级联多臂老虎机（cascading bandits）[Kveton et al., 2015]的模型受到了广泛关注，在推荐系统、在线广告中应用广泛。在级联多臂老虎机中，智能体需要在众多选项中挑选一个选项列表推荐给用户，每个选项都有一个未知的吸引概率。智能体的目标则是不断优化推荐的选项列表，以最大化期望累积奖励（点击率）。

然而，现有的级联多臂老虎机模型忽略了用户状态（如用户历史行为）对推荐的影响，以及用户状态可能的改变。为了解决这一问题，微软亚洲研究院的研究员们提出了一种名为级联强化学习（cascading reinforcement learning）的模型。在该模型中，每个用户状态-选项的匹配对有一个未知的吸引概率、一个未知的状态转移分布和一个奖励。如图2所示，在每个时刻，智能体会先观察到当前的用户状态，然后推荐一个长度为 m 的选项列表。如果用户对某一选项感兴趣并点击，那么用户将转移到下一状态，智能体则会获得一个奖励。智能体的目标是最大化期望累积奖励，因此该模型能有效地将用户状态及其变化纳入推荐过程中。

图2：级联强化学习模型

针对该模型，研究员们首先基于动态规划设计了一个快速离线求解器 BestPerm，它能够在多项式时间内计算出最优的选项列表。然后，研究员们提出了强化学习算法 CascadingVI，该算法能够达到 O ̃(H√HSNK) 的后悔度（regret）上界，这个结果只依赖于选项的个数 𝑁, 而与选项列表的个数（约 N^m）无关。因此，该算法能同时保证采样和计算的高效性。

DyVal：首个大语言模型的动态评测协议

论文链接：

https://arxiv.org/abs/2309.17167

项目链接：

https://github.com/microsoft/promptbench

DyVal 2 论文链接：

https://arxiv.org/abs/2402.14865

大语言模型（LLMs）通常都是在海量的数据上进行训练，而这就导致了潜在的测试数据污染问题：公开的测试数据，如 MMLU 等，会不可避免地被纳入训练集或有针对性地 overfit 测试集。“如何保证测试数据能够合理且正确的评估大语言模型”引起了学术界的广泛关注。

对此，研究员们提出了 DyVal（Dynamic Evaluation，动态评测协议），该协议利用有向无环图（directed acyclic graphs, DAGs）动态生成测试数据，从而降低了测试数据被模型记忆的可能性。此外，DyVal 生成的评测数据还可以作为语言模型的数据增强手段。例如，使用 DyVal 生成的数据对 Llama2-7b 模型进行微调，可有效地提升模型在众多推理数据集（如GSM8K、FOLIO等）上的表现。动态评测是大语言模型评测的一个新方向，研究员们期待越来越多的工作出现在这一领域，以帮助人们更好地理解模型的实际能力。

研究结果表明：

大语言模型在现有静态基准和 DyVal 之间的性能表现存在显著差异：例如，phi-1.5、Xwin 和 Wizard 模型在现有的基准测试中取得了优异的成绩，但是它们在研究员们的评估中表现不佳。这一现象突显了仅在静态基准测试中评测大语言模型时的潜在问题，同时也揭示了可能存在的低训练数据质量或数据污染的风险。

难以应付复杂数据集：从 D1 到 D4，模型性能显著下降，这突显了随着数据集复杂度的提升，大语言模型所遭遇的困难越来越大。例如，随着复杂度的增加，GPT-4 在算术任务上的性能下降了23%。值得注意的是，所有模型在归纳逻辑（从结论推导前提）方面的表现都普遍低于演绎逻辑（从前提推导结论），这一现象也证实了大模型推导 "A -> B" 时比 "B -> A" 时表现更为出色。此外，GPT-4 和 GPT-3.5 之间的性能差异虽然在像 D1 这样的简单任务中微不足道，但在复杂任务中却变得非常明显。这表明我们需要更复杂的多任务，以有效评估模型的能力。

图3：DyVal 示意图

KOSMOS-2：将多模态语言模型同视觉世界连接对应

论文链接：

https://arxiv.org/abs/2306.14824

Demo 链接：

https://build.nvidia.com/microsoft/microsoft-kosmos-2

KOSMOS-2 是一个多模态语言模型，具备两种新的能力——Grounding 和 Referring。Grounding 能力可以使得模型能够通过例如边界框（bounding boxes）的方式，将文本输出与视觉世界中的物体或区域相连接，进而提供更加丰富的回答，减少共指歧义，并支持更多的视觉-语言任务。Referring 则允许用户通过例如边界框的方式，选择视觉世界中的物体或区域作为模型的输入，但不需要提供详细的文本描述来指代它们，从而实现更加方便的人机交互。依托于 Grounding 和 Referring 能力，KOSMOS-2 提供了一个更灵活、更通用的视觉-语言任务人机界面。

为了解锁 KOSMOS-2 的新能力，研究员们基于大规模的图像-文本对数据构建了 GRIT（grounded image-text pairs）数据集，将文本描述与图片中的物体或区域进行对应连接。研究员们把物体或者区域的位置坐标转变成位置标记（location tokens），并通过“超链接”的方式，将文本描述与对应的位置标记连接到一起，使模型能够理解并学习这些对应关系。

图4：KOSMOS-2 框架图

KOSMOS-2 在引入新能力的同时，也保留了多模态语言模型的的常规功能。实验结果表明，KOSMOS-2 在多模态 Grounding 和 Referring 任务上取得了优异的成绩，同时在一些基础的视觉图像任务以及自然语言理解和生成方面也表现出色。KOSMOS-2 融合了语言、多模态感知与世界建模的能力，标志着迈向人工通用智能的关键一步。

MG-TSD：基于引导学习过程的多粒度时间序列扩散模型

论文链接：

https://arxiv.org/abs/2403.05751

项目链接：

https://github.com/Hundredl/MG-TSD

时间序列预测在金融、能源规划、气候建模和生物科学等多个领域都有着重要应用。近年来，许多研究开始采用生成式模型来解决时间序列预测问题，其中，基于扩散模型的研究因其出色的概率预测性质而备受关注。然而，与基于自回归模型的确定性模型相比，扩散模型在时间序列预测任务中面临的一个挑战在于，其随机性导致的不稳定性更为显著。

为了解决扩散模型在时间序列预测中的不稳定性问题，微软亚洲研究院的研究员们提出了一种新颖的多粒度时间序列扩散（MG-TSD）模型。该模型利用数据内在的多粒度水平作为中间扩散步骤的目标，以引导扩散模型的学习过程。研究员们构建目标的方式是受到了一个观察的启发，即扩散模型的前向过程逐渐使数据分布退化到标准正态分布，这一过程与将精细数据平滑成粗粒度表示的过程相吻合，因为这两个过程都导致了细分布特征的逐渐丧失。

具体而言，研究员们引入了一个新颖的多粒度引导扩散损失函数，并提出了一种简洁的实现方法，来有效利用不同粒度水平上的粗粒度数据。研究员们设定了自监督的学习目标作为中间潜在状态的约束，并使其形成一个正则化的采样路径，从而保留了粗粒度数据内的趋势和模式。通过引入这种归纳偏差，研究员们促进了在中间步骤中生成更粗的特征，并有助于在随后的扩散步骤中恢复更细的特征。因此，这种设计降低了不稳定性，产生了高质量的预测结果。