Bendi新闻
>
ICLR上新 | 强化学习、扩散模型、多模态语言模型,你想了解的前沿方向进展全都有

ICLR上新 | 强化学习、扩散模型、多模态语言模型,你想了解的前沿方向进展全都有


(本文阅读时间:12分钟)


编者按:欢迎阅读“科研上新”栏目!“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里,你可以快速浏览研究院的亮点资讯,保持对前沿领域的敏锐嗅觉,同时也能找到先进实用的开源工具。


本周,全球最负盛名的人工智能盛会之一 ICLR 大会将在奥地利维也纳举办。所以,今天的“科研上新”将为大家带来多篇微软亚洲研究院在 ICLR 2024 上的精选论文解读,涉及领域涵盖深度强化学习、多模态语言模型、时间序列扩散模型、无监督学习等多个前沿主题。


欢迎大家参与文末投票,选出你最感兴趣的论文!我们将于近期邀请论文的作者们与你在直播间进行前沿技术的交流与探讨。


「 本期内容速览 」
01

应对深度强化学习中的信号延迟问题

02

级联强化学习

03

DyVal:首个大语言模型的动态评测协议

04

KOSMOS-2:将多模态语言模型同视觉世界连接对应

05

MG-TSD:基于引导学习过程的多粒度时间序列扩散模型


应对深度强化学习中的信号延迟问题



论文链接:

https://openreview.net/forum?id=Z8UfDs4J46


近年来,深度强化学习(DRL)及其应用迅速发展,它不仅在虚拟任务(如视频游戏和模拟机器人环境)上取得了成功,也在许多具有挑战性的现实世界任务中得到了证明,例如控制托卡马克和通过人类反馈调整大语言模型。然而,导致智能体可能无法立即观察到当前环境状态或其行动无法立即影响环境的信号延迟,在深度强化学习研究中长期存在且经常被忽视。该问题广泛存在于各种实际应用中,对基于深度强化学习解决方案的有效性产生了重大影响,因此该挑战迫切需要研究进行应对。


为了解决 DRL 中的信号延迟问题,研究员们首先通过扩展马尔可夫决策过程框架来定义延迟观测马尔可夫决策过程(DOMDP),从而将信号延迟的情况纳入考虑之中。然后,研究员们在论文中阐明了 DRL 里信号延迟存在的挑战,并展示了常规 DRL 算法和部分可观测马尔可夫决策过程(POMDP)的通用方法受到延迟的严重影响。


针对这些挑战,研究员们提出了一系列新方法,旨在提高存在延迟时 DRL 算法的性能。结合理论见解和实际算法调整,研究员们扩展了传统的 actor-critic 框架,并提出了有效的策略来克服这些挑战。充分的实验结果表明,在具有较大延迟的连续机器人控制任务中,采用该论文提出的方法后,DRL 算法取得了卓越的性能,其结果与无延迟情况相比,性能损失较小。


图1:该论文中的方法(红色虚线)可以在有信号延迟的情况下保持较好的效果,而其他常用的方法在有延迟的情况下表现显著下降(作为对比,黑色虚线是没有信号延迟情况下的表现)。


这项研究在解决 DRL 中一个基本挑战方面迈出了重要的一步,不仅拓宽了其在现实环境中的应用范围,也为自主系统的持续发展做出了贡献。通过开发有效应对信号延迟的方法,研究员们增强了 DRL 的实用性和可靠性,为其在非理想条件下的应用奠定了基础。


级联强化学习



论文链接:

https://arxiv.org/abs/2401.08961


近年来,一种名为级联多臂老虎机(cascading bandits)[Kveton et al., 2015]的模型受到了广泛关注,在推荐系统、在线广告中应用广泛。在级联多臂老虎机中,智能体需要在众多选项中挑选一个选项列表推荐给用户,每个选项都有一个未知的吸引概率。智能体的目标则是不断优化推荐的选项列表,以最大化期望累积奖励(点击率)。


然而,现有的级联多臂老虎机模型忽略了用户状态(如用户历史行为)对推荐的影响,以及用户状态可能的改变。为了解决这一问题,微软亚洲研究院的研究员们提出了一种名为级联强化学习(cascading reinforcement learning)的模型。在该模型中,每个用户状态-选项的匹配对有一个未知的吸引概率、一个未知的状态转移分布和一个奖励。如图2所示,在每个时刻,智能体会先观察到当前的用户状态,然后推荐一个长度为 m 的选项列表。如果用户对某一选项感兴趣并点击,那么用户将转移到下一状态,智能体则会获得一个奖励。智能体的目标是最大化期望累积奖励,因此该模型能有效地将用户状态及其变化纳入推荐过程中。


图2:级联强化学习模型


针对该模型,研究员们首先基于动态规划设计了一个快速离线求解器 BestPerm,它能够在多项式时间内计算出最优的选项列表。然后,研究员们提出了强化学习算法 CascadingVI,该算法能够达到 O ̃(H√HSNK) 的后悔度(regret)上界,这个结果只依赖于选项的个数 𝑁, 而与选项列表的个数(约 N^m)无关。因此,该算法能同时保证采样和计算的高效性。


DyVal:首个大语言模型的动态评测协议



论文链接:

https://arxiv.org/abs/2309.17167

项目链接:

https://github.com/microsoft/promptbench

DyVal 2 论文链接:

https://arxiv.org/abs/2402.14865


大语言模型(LLMs)通常都是在海量的数据上进行训练,而这就导致了潜在的测试数据污染问题:公开的测试数据,如 MMLU 等,会不可避免地被纳入训练集或有针对性地 overfit 测试集。“如何保证测试数据能够合理且正确的评估大语言模型”引起了学术界的广泛关注。


对此,研究员们提出了 DyVal(Dynamic Evaluation,动态评测协议),该协议利用有向无环图(directed acyclic graphs, DAGs)动态生成测试数据,从而降低了测试数据被模型记忆的可能性。此外,DyVal 生成的评测数据还可以作为语言模型的数据增强手段。例如,使用 DyVal 生成的数据对 Llama2-7b 模型进行微调,可有效地提升模型在众多推理数据集(如GSM8K、FOLIO等)上的表现。动态评测是大语言模型评测的一个新方向,研究员们期待越来越多的工作出现在这一领域,以帮助人们更好地理解模型的实际能力。


研究结果表明:


大语言模型在现有静态基准和 DyVal 之间的性能表现存在显著差异:例如,phi-1.5、Xwin 和 Wizard 模型在现有的基准测试中取得了优异的成绩,但是它们在研究员们的评估中表现不佳。这一现象突显了仅在静态基准测试中评测大语言模型时的潜在问题,同时也揭示了可能存在的低训练数据质量或数据污染的风险。


难以应付复杂数据集:从 D1 到 D4,模型性能显著下降,这突显了随着数据集复杂度的提升,大语言模型所遭遇的困难越来越大。例如,随着复杂度的增加,GPT-4 在算术任务上的性能下降了23%。值得注意的是,所有模型在归纳逻辑(从结论推导前提)方面的表现都普遍低于演绎逻辑(从前提推导结论),这一现象也证实了大模型推导 "A -> B" 时比 "B -> A" 时表现更为出色。此外,GPT-4 和 GPT-3.5 之间的性能差异虽然在像 D1 这样的简单任务中微不足道,但在复杂任务中却变得非常明显。这表明我们需要更复杂的多任务,以有效评估模型的能力。


图3:DyVal 示意图


KOSMOS-2:将多模态语言模型同视觉世界连接对应


论文链接:

https://arxiv.org/abs/2306.14824

Demo 链接:

https://build.nvidia.com/microsoft/microsoft-kosmos-2


KOSMOS-2 是一个多模态语言模型,具备两种新的能力——Grounding 和 Referring。Grounding 能力可以使得模型能够通过例如边界框(bounding boxes)的方式,将文本输出与视觉世界中的物体或区域相连接,进而提供更加丰富的回答,减少共指歧义,并支持更多的视觉-语言任务。Referring 则允许用户通过例如边界框的方式,选择视觉世界中的物体或区域作为模型的输入,但不需要提供详细的文本描述来指代它们,从而实现更加方便的人机交互。依托于 Grounding 和 Referring 能力,KOSMOS-2 提供了一个更灵活、更通用的视觉-语言任务人机界面。


为了解锁 KOSMOS-2 的新能力,研究员们基于大规模的图像-文本对数据构建了 GRIT(grounded image-text pairs) 数据集,将文本描述与图片中的物体或区域进行对应连接。研究员们把物体或者区域的位置坐标转变成位置标记(location tokens),并通过“超链接”的方式,将文本描述与对应的位置标记连接到一起,使模型能够理解并学习这些对应关系。


图4:KOSMOS-2 框架图


KOSMOS-2 在引入新能力的同时,也保留了多模态语言模型的的常规功能。实验结果表明,KOSMOS-2 在多模态 Grounding 和 Referring 任务上取得了优异的成绩,同时在一些基础的视觉图像任务以及自然语言理解和生成方面也表现出色。KOSMOS-2 融合了语言、多模态感知与世界建模的能力,标志着迈向人工通用智能的关键一步。


MG-TSD:基于引导学习过程的多粒度时间序列扩散模型



论文链接:

https://arxiv.org/abs/2403.05751

项目链接:

https://github.com/Hundredl/MG-TSD


时间序列预测在金融、能源规划、气候建模和生物科学等多个领域都有着重要应用。近年来,许多研究开始采用生成式模型来解决时间序列预测问题,其中,基于扩散模型的研究因其出色的概率预测性质而备受关注。然而,与基于自回归模型的确定性模型相比,扩散模型在时间序列预测任务中面临的一个挑战在于,其随机性导致的不稳定性更为显著。


为了解决扩散模型在时间序列预测中的不稳定性问题,微软亚洲研究院的研究员们提出了一种新颖的多粒度时间序列扩散(MG-TSD)模型。该模型利用数据内在的多粒度水平作为中间扩散步骤的目标,以引导扩散模型的学习过程。研究员们构建目标的方式是受到了一个观察的启发,即扩散模型的前向过程逐渐使数据分布退化到标准正态分布,这一过程与将精细数据平滑成粗粒度表示的过程相吻合,因为这两个过程都导致了细分布特征的逐渐丧失。


具体而言,研究员们引入了一个新颖的多粒度引导扩散损失函数,并提出了一种简洁的实现方法,来有效利用不同粒度水平上的粗粒度数据。研究员们设定了自监督的学习目标作为中间潜在状态的约束,并使其形成一个正则化的采样路径,从而保留了粗粒度数据内的趋势和模式。通过引入这种归纳偏差,研究员们促进了在中间步骤中生成更粗的特征,并有助于在随后的扩散步骤中恢复更细的特征。因此,这种设计降低了不稳定性,产生了高质量的预测结果。


图5:多粒度时间序列扩散(MG-TSD)模型框架,包括三个关键模块:多粒度数据生成器、时间过程模块(TPM)和用于特定粒度级别时间序列预测的引导扩散过程模块


实验结果表明,MG-TSD 模型在不同领域的真实世界的时间序列预测任务上都能够有效地进行预测,并具有优异的稳定性和鲁棒性。此外,该模型不依赖于额外的外部数据,使其在各种领域都具有广泛的适用性。


MG-TSD 模型为解决时间序列预测中的不稳定性问题提供了一个创新的解决方案,为未来的研究和应用提供了新的方向和可能。



快来为你希望直播分享的论文投上一票吧!













你也许还想看:



微信扫码关注该文公众号作者

来源:微软亚洲研究院

相关新闻

ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3ICLR 2024 | 媲美DALLE-3!基座模型LaVIT刷榜多模态理解与生成任务CVPR 2024 中科院自动化所36篇入选!新主干/多模态/3D视觉/自动驾驶等全都有!开源大模型王座再易主,1320亿参数DBRX上线,基础、微调模型都有GPT-4、Llama3...大模型都有致命弱点!清华联合蚂蚁提出TimeMixer,可分解多尺度融合的时序预测模型 | ICLR 2024双向、药靶、多变量、非线性孟德尔知识库全都有!“疑难杂症”一键解决!“高分套路”应有尽有!双向、药靶、多变量、非线性孟德尔知识库全都有!“疑难杂症”一键解决,“高分套路”应有尽有!ICLR 2024 | 量化和增强模态偏好影响下的多模态鲁棒性春天的衣服来啦!舒服好看有质感,宅家、出门穿的全都有!LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」ICLR 2024 | Adobe提出DMV3D:3D生成只需30秒!让文本、图像都动起来的新方法!ICLR 2024 清华/新国大/澳门大学提出一模通吃的多粒度图文组合检索MUG:通过不确定性建模,两行代码完成部署必看!今天,一大波新政实施!免签、减税、补贴、福利...全都有!ICLR 2024 | 阐明扩散模型中的曝光偏差问题,一行代码大幅提升生成质量北鼎史低价 | 养生壶、饮水机、蒸炖锅全都有,最高直降67刀年货节 | 黄金厨电、拜年礼物全都有!过年这么送,稳准狠又省钱!最后两天史低价 | 北鼎大促专场,蒸炖锅、饮水机、养生壶全都有~卫生纸、洗漱品、化妆品……家家都有、人人都用的物品会致癌!英国1月有房吗?租房君转租更便宜!格拉、爱丁堡、诺丁汉、雷丁、利兹、卡迪夫约克全都有....(1月17日更新)直播|| 不露脚趾的鞋子、超能装的大包,都有优惠!在 ICLR 2024,看见中国大模型的力量多模态融合再度领跑ICLR 2024!这56种创新SOTA方案必看巧解「数据稀缺」问题!清华开源GPD:用扩散模型生成神经网络参数|ICLR 2024
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。