Bendi新闻
>
扩散模型图像理解力刷新SOTA!字节联合复旦团队提出全新「元提示」策略

扩散模型图像理解力刷新SOTA!字节联合复旦团队提出全新「元提示」策略

10月前


©作者 | 好困 桃子

来源 | 新智元



过去一年扩散模型风头正劲,彻底改变了文生图领域!那么,扩散模型能否处理视觉感知任务?字节跳动和复旦大学技术团队在最新研究中提出了一个简单有效的方案。


Text-to-image(T2I)扩散模型在生成高清晰度图像方面显示出了卓越的能力,这一成就得益于其在大规模图像-文本对上的预训练。这引发了一个自然的问题:扩散模型是否可以用于解决视觉感知任务?

近期,来自字节跳动和复旦大学的技术团队提出了一种简单而有效的方案:利用扩散模型处理视觉感知任务。团队的关键洞察是引入可学习的元提示(meta prompts)到预训练的扩散模型中,以提取适合特定感知任务的特征。

论文标题:

Harnessing Diffusion Models for Visual Perception with Meta Prompts

论文地址:

https://arxiv.org/abs/2312.14733

代码地址:

https://github.com/fudan-zvg/meta-prompts



技术介绍

团队将 text-to-image 扩散模型作为特征提取器应用于视觉感知任务中。

输入图像首先通过 VQVAE 编码器 进行图像压缩。这一步将图像分辨率降低到原始大小的 1/8,产生 latent space 中的特征表示,即 。值得注意的是,VQVAE 编码器的参数是固定的,不参与后续训练。
接下来,保持未添加噪声的 被送入到 UNet 进行特征提取。为了更好地适应不同任务,UNet 同时接收调制的 timestep embeddings 和多个 meta prompts,产生与 形状一致的特征。
在整个过程中,为了增强特征表达,该方法进行了 步的 recurrent refinement。这使得 UNet 内不同层的特征能够更好地交互融合。在第 次循环中,UNet 的参数由特定的可学习的时间调制特征 调节。
最终,UNet 生成的多尺度特征输入到专门为目标视觉任务设计的解码器 中。


可学习的元提示(meta prompts)设计

Stable diffusion model 采用 UNet 架构,通过交叉注意力将文本提示融入图像特征中,实现了文生图。这种整合确保了图像生成在语境和语义上的准确性。 
然而,视觉感知任务的多样性超出了这一范畴,因为图像理解面临着不同的挑战,往往缺乏文本信息作为指导,使得以文本驱动的方法有时显得不切实际。 
为应对这一挑战,技术团队的方法采用了更为多样的策略——不依赖外部文本提示,而是设计了一种内部的可学习元提示,称为 meta prompts,这些 meta prompts 被集成到扩散模型中,以适应感知任务。

Meta prompts 以矩阵 的形式表示,其中 表示 meta prompts 的数量, 表示维度。具备 meta prompts 的感知扩散模型避免了对外部文本提示的需求,如数据集类别标签或图像标题,也无需预训练的文本编码器来生成最终的文本提示。
Meta prompts 可以根据目标任务和数据集进行端到端的训练,从而为去噪 UNet 建立特别定制的适应条件。这些 meta prompts 包含丰富的、适应于特定任务的语义信息。比如:
在语义分割任务中,meta prompts 有效地展示了对类别的识别能力,相同的 meta prompts 倾向于激活同一类别的特征。


在深度估计任务中,meta prompts 表现出对深度的感知能力,激活值随深度变化,使 prompts 能够集中关注一致距离的物体。

在姿态估计中,meta prompts 展现出一套不同的能力,特别是关键点的感知,这有助于人体姿态检测。

这些定性结果共同突显了技术团队提出的 meta prompts 在各种任务中对任务相关激活能力的有效性。作为文本提示的替代品,meta prompts 很好地填补了了 text-to-image 扩散模型与视觉感知任务之间的沟壑。
基于元提示的特征重组

扩散模型通过其固有的设计,在去噪 UNet 中生成多尺度特征,这些特征在接近输出层时聚焦于更细致、低级的细节信息。虽然这种低级细节对于强调纹理和细粒度的任务来说足够,但视觉感知任务通常需要理解既包括低级细节的又包括高级语义解释的内容。 

因此,不仅需要生成丰富的特征,确定这些多尺度特征的哪种组合方式可以为当前任务提供最佳表征也非常重要。这就是 meta prompts 的作用所在—— 这些prompts 在训练过程中保存了与所使用数据集特定相关的上下文知识。这种上下文知识使 meta prompts 能够充当特征重组的过滤器,引导特征选取过程,从 UNet 产生的众多特征中筛选出与任务最相关的特征。 

团队使用点积的方式将 UNet 的多尺度特征的丰富性与 meta prompts 的任务适应性结合起来。

考虑多尺度特征 ,其中每个 表示特征图的高度和宽度。Meta prompts 。每个尺度上重排的特征 的计算为:
最后,这些经过 meta prompts 过滤的特征随后输入到特定任务的解码器中。
基于可学习的时间调制特征的recurrent refinement
在扩散模型中,添加噪声然后多步去噪的迭代过程构成了图像生成的框架。受此机制的启发,技术团队为视觉感知任务设计了一个简单的 recurrent refinement过程——没有向输出特征中添加噪声,而是直接将 UNet 的输出特征循环输入到 UNet 中。 
同时为了解决随着模型通过循环,输入特征的分布会发生变化但 UNet 的参数保持不变的不一致的问题,技术团队对于每个循环引入了可学习的独特的 timestep embeddings,以调制 UNet 的参数。这确保了网络对于不同步骤中输入特征的变化性保持适应性和响应性,优化了特征提取过程,并增强了模型在视觉识别任务中的性能。

结果显示,该方法在多个感知任务数据集上都取得了最优。


应用落地和展望

该文章提出的方法和技术有广泛的应用前景,可以在多个领域内推动技术的发展和创新:
1. 视觉感知任务的改进:该研究能够提升各种视觉感知任务的性能,如图像分割、深度估计和姿态估计。这些改进可应用于自动驾驶、医学影像分析、机器人视觉系统等领域。
2. 增强的计算机视觉模型:所提出的技术可以使计算机视觉模型在处理复杂场景时更加准确和高效,特别是在缺乏明确文本描述的情况下。这对于图像内容理解等应用尤为重要。
3. 跨领域应用:该研究的方法和发现可以激励跨领域的研究和应用,比如在艺术创作、虚拟现实、增强现实中,用于提高图像和视频的质量和互动性。
4. 长期展望:随着技术的进步,这些方法可能会进一步完善,带来更先进的图像生成和内容理解技术。


团队介绍

智能创作团队是字节跳动 AI&多媒体技术中台,覆盖了计算机视觉、音视频编辑、特效处理等技术领域,借助公司丰富的业务场景、基础设施资源和技术协作氛围,实现了前沿算法-工程系统-产品全链路的闭环,旨在以多种形式为公司内部各业务提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。
目前,智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。

更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

来源:PaperWeekly

相关新闻

扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略浙大等团队提出全新「自我对比」策略,有效提高大模型的反思效果中山大学和字节发布「视频虚拟试穿」扩散模型VITON-DiT,一键生成换装后视频!扩散模型更懂复杂提示词!Pika北大斯坦福开源新框架,利用LLM提升理解力超越扩散模型!度小满、中科大等联合提出全新自回归通用文生图模型ECCV 2024 | 让GPT-4图像理解更易出错,全新策略增强VLP模型对抗迁移性首个!上交&ETH提出PromptSR:基于文本提示扩散的图像超分辨率底层视觉大模型!董超团队新作SUPIR:扩散生成先验的图像复原巧解「数据稀缺」问题!清华开源GPD:用扩散模型生成神经网络参数|ICLR 2024ECCV 2024 | ZigMa:Mamba遇见扩散模型!强强联合!这类策略“彻底火了”!私募出手用MoE横扫99个子任务!浙大等提出全新通用机器人策略GeRM日本“食人菌”感染病例扩散速度明显!什么是“食人菌”?Mamba遇见扩散模型!DiM:无需微调,高分辨图像生成更高效!超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像,中科大哈工大度小满出品“愤慨”!特鲁多政府对邹至蕙暴涨地税策略感到愤怒!多伦多房主无辜成人质“套娃”策略再生一子,理想汽车进入25万元级市场纷争“该结束了”!拜登揭竞选新策略:抨击民主党“精英”ChatGPT会撒谎?面临压力时会“撒谎”并有策略地欺骗用户,就像人类一样!?扩散模型也能推荐短视频!港大腾讯提出新范式DiffMMLlama 3加持,用户实测Meta AI还是弱爆了!小扎弯道超车的策略竟是「免费+不限量」?第三个新“国九条”来了!——近期监管措施对量化策略的影响火力全开!拜登揭竞选新策略:抨击民主党“精英”注意!7月1日将政策大变,这两类人「澳洲学签」申请受限!附深度解读与应对策略......
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。