Bendi新闻
>
可控图像生成最新综述!北邮开源20页249篇文献!

可控图像生成最新综述!北邮开源20页249篇文献!

9月前

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【扩散模型和多模态】交流群

添加微信:CVer444,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

单位:北京邮电大学   

论文:https://arxiv.org/abs/2403.04279  

代码:

https://github.com/PRIV-Creation/Awesome-Controllable-T2I-Diffusion-Models   

TL;DR(太长不看版总结)

利用文本生成图片(Text-to-Image, T2I)已经满足不了人们的需要了,近期研究在T2I模型的基础上引入了更多类型的条件来生成图像,本文对这些方法进行了总结综述。

摘要

在视觉生成领域迅速发展的过程中,扩散模型已经彻底改变了这一领域的格局,通过其令人印象深刻的文本引导生成功能标志着能力方面的重大转变。然而,仅依赖文本来调节这些模型并不能完全满足不同应用和场景的多样化和复杂需求。鉴于这种不足,许多研究旨在控制预训练文本到图像(T2I)模型以支持新条件。在此综述中,作者对关于具有 T2I 扩散模型可控性生成的文献进行了彻底审查,涵盖了该领域内理论基础和实际进展。我们的审查从简要介绍去噪扩散概率模型(DDPMs)和广泛使用的 T2I 扩散模型基础开始。然后我们揭示了扩散模型的控制机制,并从理论上分析如何将新条件引入去噪过程以进行有条件生成。此外,我们提供了对该领域研究情况详尽概述,并根据条件角度将其组织为不同类别:具有特定条件生成、具有多个条件生成以及通用可控性生成。    

图 1 利用T2I扩散模型可控生成示意图。在文本条件的基础上,加入“身份”条件来控制输出的结果。

分类体系    

图 2 可控生成的分类。从条件角度来看,我们将可控生成方法分为三个子任务,包括具有特定条件的生成、具有多个条件的生成和通用可控生成。

利用文本扩散模型进行条件生成的任务代表了一个多方面和复杂的领域。从条件角度来看,我们将这个任务分为三个子任务(参见图2)。大多数研究致力于如何在特定条件下生成图像,例如基于图像引导的生成和草图到图像的生成。为了揭示这些方法的理论和特征,我们根据它们的条件类型进一步对其进行分类。

  • 利用特定条件生成:指引入了特定类型条件的方法,既包括定制的条件(Personalization, e.g., DreamBooth, Textual Inversion),也包含比较直接的条件,例如ControlNet系列、生理信号-to-Image。    

  • 多条件生成:利用多个条件进行生成,对这一任务我们在技术的角度对其进行细分。

  • 统一可控生成:这个任务旨在能够利用任意条件(甚至任意数量)进行生成。

如何在T2I扩散模型中引入新的条件

细节请参考论文原文,下面对这些方法机理进行简要介绍。

一、条件得分预测(Conditional Score Prediction)

在T2I扩散模型中,利用可训练模型(例如UNet)来预测去噪过程中的概率得分(即噪声)是一种基本且有效的方法。在基于条件得分预测方法中,新颖条件会作为预测模型的输入,来直接预测新的得分。其可划分三种引入新条件的方法:    

  • 基于模型的条件得分预测:这类方法会引入一个用来编码新颖条件的模型,并将编码特征作为UNet的输入(如作用在cross-attention层),来预测新颖条件下的得分结果;

  • 基于微调的条件得分预测:这类方法不使用一个显式的条件,而是微调文本嵌入和去噪网络的参数,来使其学习新颖条件的信息,从而利用微调后的权重来实现可控生成。例如DreamBooth和Textual Inversion就是这类做法。

  • 无需训练的条件得分预测:这类方法无需对模型进行训练,可以直接将条件作用于模型的预测环节,例如在Layout-to-Image(布局图像生成)任务中,可以直接修改cross-attention层的attention map来实现设定物体的布局。

二、条件引导的得分评估

条件引导估的得分估计方法是通过条件预测模型(如上图Condition Predictor)反传梯度来在去噪过程中增加条件指导。

利用特定条件生成    

  • Personalization(定制化):定制化任务旨在捕捉和利用概念作为生成条件行可控生成,这些条件不容易通过文本描述,需要从示例图像中进行提取。如DreamBooth,Texutal Inversion和LoRA。

  • Spatial Control(空间控制):由于文本很难表示结构信息,即位置和密集标签,因此使用空间信号控制文本到图像扩散方法是一个重要的研究领域,例如布局、人体姿势、人体解析。方法例如ControlNet。

  • Advanced Text-Conditioned Generation(增强的文本条件生成):尽管文本在文本到图像扩散模型中起着基础条件的作用,但该领域仍存在一些挑战。首先,在涉及多个主题或丰富描述的复杂文本中进行文本引导合成时,通常会遇到文本不对齐的问题。此外,这些模型主要在英语数据集上训练,导致了多语言生成能力明显不足。解决这一限制,许多工作提出了旨在拓展这些模型语言范围的创新方法。

  • In-Context Generation(上下文生成):在上下文生成任务中,根据一对特定任务示例图像和文本指导,在新的查询图像上理解并执行特定任务。    

  • Brain-Guided Generation(脑信号引导生成):脑信号引导生成任务专注于直接从大脑活动控制图像创建,例如脑电图(EEG)记录和功能性磁共振成像(fMRI)。

  • Sound-Guided Generation(声音引导生成):以声音为条件生成相符合的图像。

  • Text Rendering(文本渲染):在图像中生成文本,可以被广泛应用到海报、数据封面、表情包等应用场景。

多条件生成

多条件生成任务旨在根据多种条件生成图像,例如在用户定义的姿势下生成特定人物或以三种个性化身份生成人物。在本节中,我们从技术角度对这些方法进行了全面概述,并将它们分类以下类别:

  • Joint Training(联合训练):在训练阶段就引入多个条件进行联合训练。

  • Continual Learning(持续学习):有顺序的学习多个条件,在学习新条件的同时不遗忘旧的条件,以实现多条件生成。

  • Weight Fusion(权重融合):用不同条件微调得到的参数进行权重融合,以使模型同时具备多个条件下的生成。    

  • Attention-based Integration(基于注意力的集成):通过attention map来设定多个条件(通常为物体)在图像中的位置,以实现多条件生成。

通用条件生成

除了针对特定类型条件量身定制的方法之外,还存在旨在适应图像生成中任意条件的通用方法。这些方法根据它们的理论基础被广泛分类为两组:通用条件分数预测框架和通用条件引导分数估计。

  • 通用条件分数预测框架:通用条件分数预测框架通过创建一个能够编码任何给定条件并利用它们来预测图像合成过程中每个时间步的噪声的框架。这种方法提供了一种通用解决方案,可以灵活地适应各种条件。通过直接将条件信息整合到生成模型中,该方法允许根据各种条件动态调整图像生成过程,使其多才多艺且适用于各种图像合成场景。

  • 通用条件引导分数估计:其他方法利用条件引导的分数估计将各种条件纳入文本到图像扩散模型中。主要挑战在于在去噪过程中从潜变量获得特定条件的指导。

应用

引入新颖条件可以在多个任务中发挥用处,其中包括图像编辑、图像补全、图像组合、文/图生成3D。例如,在图像编辑中,可以利用定制化方法,将图中出现猫编辑为特具有定身份的猫。其他内容请参考论文。

总结

这份综述深入探讨了文本到图像扩散模型的条件生成领域,揭示了融入文本引导生成过程中的新颖条件。首先,作者为读者提供基础知识,介绍去噪扩散概率模型、著名的文本到图像扩散模型以及一个结构良好的分类法。随后,作者揭示了将新颖条件引入T2I扩散模型的机制。然后,作者总结了先前的条件生成方法,并从理论基础、技术进展和解决方案策略等方面对它们进行分析。此外,作者探索可控生成的实际应用,在AI内容生成时代强调其在其中发挥重要作用和巨大潜力。这项调查旨在全面了解当前可控T2I生成领域的现状,从而促进这一充满活力研究领域持续演变和拓展。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的300+页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


多模态和扩散模型交流群成立

扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-多模态和扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如多模态或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

来源:CVer

相关新闻

可控图像生成最新综述!北邮开源20页249篇文献,包揽Text-to-Image Diffusion领域各种「条件」​249篇文献!北邮发布文本到图像Diffusion可控生成最新综述,已开源!一次可输入多张图像,还能多轮对话!最新开源数据集,让AI聊天更接近现实250+篇文献!最新综述全面解析科学领域大模型及其在科学发现中的应用246篇文献!参数高效微调最新综述发布,让大模型不再「巨无霸」1小时无痛写论文,巧用AI替自己打工,一键生成论文,开题报告和文献综述的秘诀!准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源综述170篇「自监督学习」推荐算法,港大发布SSL4Rec:代码、资料库全面开源!KDD 2024 | 已开源!可解释性点过程对社交网络交互的挖掘Stable Video 3D重磅开源!3D生成迎来新突破!GPT-4级模型Grok开源可商用!卷底层大模型的公司危了最新综述!3D生成进展的全面调研梵高大跳科目三,只需文字+火柴人动效!可控视频生成框架来了 | AAAI 2024MeshAnything V2重磅开源!30秒生成建模师级的3D Mesh!最新开源代码证实!“鸿蒙原生版”微信正在积极开发中检索增强生成引擎 RAGFlow 正式开源!仅一天收获上千颗星完全开源!谢赛宁发布最新SOTA多模态模型Cambrian-1,“不与GPT-4V媲美”一万亿token!34亿张图像,扩大10倍!史上最大开源多模态数据集MINT-1T发布!1小时搞定5000字文献综述?!学会用AI后,0篇SCI的我打开了科研的大门……阿里音频生成大模型一次发俩还开源!50种语言快速理解+5种语言语音生成,带情感的那种国产多模态大模型狂飙!颜水成挂帅开源Vitron,破解图像/视频模型割裂问题天工3.0正式开放!4000亿参数MoE开源,开启音乐生成ChatGPT时刻Diffusion4D:首个4D视频生成扩散模型!数分钟内实现4D内容生成,超81K的4D数据集已开源!开源模型打败GPT-4!LLM竞技场最新战报,Cohere Command R+上线
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。