Bendi新闻
>
CVPR 2024 | 更高效、更准确的拖拽编辑 Drag Your Noise

CVPR 2024 | 更高效、更准确的拖拽编辑 Drag Your Noise

2月前

新加坡管理大学何盛烽团队联合华南师范大学在CVPR 2024上发表了工作《Drag Your Noise: Interactive Point-based Editing via Diffusion Semantic Propagation》。这一工作聚焦于利用扩散模型语义传播实现交互式点控制的图像编辑,只需点几个点,即可对用户输入的真实图片和生成图片精准快速的编辑,再也不用担心甲方 “天马行空” 的要求!!!

DragNoise对内容填充、擦除、转脸、姿势控制等要求都能轻松快速的搞定,想要拖动哪里只需点一个红点,想要拖到哪里只需点一个蓝点,DragNoise即可将红点的内容拖拽到蓝点。相对于SOTA方法DragDiffusion,我们方法在有效保留图片原有信息的同时实现更精准快速的拖拽。

Arxiv链接:http://arxiv.org/abs/2404.01050

Code: https://github.com/haofengl/DragNoise

DragNoise

DragDiffusion

DragNoise

DragDiffusion

DragNoise

DragDiffusion

DragNoise

DragDiffusion

DragNoise

DragDiffusion

DragNoise

DragDiffusion

在这一领域,一些近期的工作引起了广泛关注。利用生成对抗网络(GAN)的DragGAN是一个重要里程碑,DragDiffusion进一步应用到扩散模型上,下图展示了这两个方法的主要思想。不同于传统的“Outer-inversion”将真实图像反演至latent空间,我们将这种将用户编辑反演至latent空间的内部优化过程称为“Inner-inversion”。

1.DragGAN:使用StyleGAN2生成器的第6层特征作为运动监督,将拖拽编辑反演至latent code,从而产生相应的拖动结果图。尽管DragGAN具有创新性,但基于GAN固有的生成效果局限性使其无法获得高质量的编辑结果。此外,该工作和其他基于GAN的编辑方法涉及优化新的latent code,难以保留图片全局内容。

DragGAN

2.DragDiffusion利用大规模预训练扩散模型的优势,在这一领域取得了显著进步。DragDiffusion延续了DragGAN的“Inner-inversion”方法,利用U-Net中间特征来监督优化噪声latent map,从而控制后续去噪过程生成编辑后的图片。

然而,我们发现DragDiffusion出现了两个主要问题:梯度消失导致的拖拽不足或无效,以及较低的反演保真度。DragDiffusion的反演反向传播链较长,当控制点前后的特征差异很小时,梯度消失的问题就会加剧,导致结果出现“欠拖拽”。

此外,保持图像的保真度仍然是反演技术的长期挑战。虽然DragDiffusion相比DragGAN,通过将“Inner-inversion”扩展到二维latent map,改善了空间控制,但由于其优化路径为反传到去噪过程中的有噪声latent map,仍然难以保持较高的保真度。

DragDiffusion

相比于以上的方法,我们提出的方法DragNoise改变预测的噪声并传播优化来进行图像编辑。

DragNoise的核心思想来源于我们对在扩散模型中一种“middle-block replacement”的操作的探索。该操作从某个去噪时间步开始,将不同层的特征复制到所有后续timestep的对应层。通过观察DDIM inversion重建图像的效果,我们探索了扩散模型在何时以及何处学习到何种层次的语义信息。

如下图所示,我们发现,bottleneck特征是一种最优扩散语义表示,适合于高效编辑。由于它可以在早期timestep中有效地被编辑,因此操纵bottleneck特征可以平滑地传播到后面的去噪步骤,从而确保结果图像扩散语义的完整性。此外,由于优化bottleneck的路径短,有效地避免了梯度消失问题。

Middle-Block Replacement

如下图所示,我们的方法DragNoise包括两个过程:扩散语义优化和扩散语义传播:

1.扩散语义优化:DragNoise的编辑过程开始于训练高级语义的timestep (例如,t=35),在此阶段针对用户的拖拽编辑对U-Net的bottleneck特征进行扩散语义优化。优化后的bottleneck特征学习到预期的拖拽效果,并使U-Net输出相应的操纵噪声。

2.扩散语义传播:上一个步骤中优化的bottleneck特征包含了目标语义,因此与上面讨论的“middle-block replacement”操作相似,我们通过替换相应的bottleneck特征将优化后的bottleneck特征传播到所有后续时间步,从而避免了冗余的特征优化。这种替换以稳定、高效的方式显著增强了操纵效果。

DragNoise

我们使用拖拽编辑数据集DragBench和不同的示例图像进行了广泛的定量和定性实验。如下图,DragDiffusion在大幅编辑时,会出现破坏周围特征的情况。DragGAN由于其生成能力的限制, 对用户输入的图片编辑会严重失真,即使对于GAN生成的图片(下图中小猫),由于其优化的latent code为一维特征,缺少空间控制能力,会出现全局变化。

另外,我们在编辑点周围特征相似的极端情况下进行了实验,我们方法可以实现精准的控制,且控制能力优于FreeDrag方法。

与DragDiffusion相比,DragNoise显著减少了50%以上的优化步骤。结果表明了DragNoise的编辑具有突出的效率和灵活性。

我们在DragBench数据集上进行了定量实验,结果达到了SOTA。

此外,我们展示更多和DragDiffusion的对比效果,以表明我们方法广泛的有效性。

最后,我们展示更多的DragNoise的编辑过程,以表明DragNoise的连续性和稳定性。    

更多内容,点击下方关注:

微信扫码关注该文公众号作者

来源:AI科技评论

相关新闻

CVPR 2024 | 中科大&微软提出:迈向更统一的上下文视觉理解CVPR 2024 | MotionEditor:首个面向动作编辑的视频扩散模型CVPR 2024 | 和马赛克说拜拜!华为、清华等提出基于认知的万物超分大模型CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务CVPR、AAAI、ICLR 2024 满分论文出炉!CVPR、AAAI、ICLR 2024满分论文出炉!CVPR、ICLR、AAAI 2024优秀论文!CVPR 2024 | 与任务无关的多模态数据也能提升Transformer性能!港中文&腾讯新作CVPR 2024 | 跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式CVPR、AAAI、ICLR 2024优秀论文!CVPR 2024 | 双手协作双物体的数据集TACO:引领可泛化手物交互的新方向大模型时代的计算机视觉!CVPR 2024线上分享会全日程公布大模型时代的计算机视觉!CVPR 2024线上论文分享会启动CVPR 2024 | 北大提出HoT:高效3D人体姿态估计新框架CVPR 2024 | 多模态合作学习的新视角:样本级模态的评估与协同329篇图像、视频生成论文,今年CVPR最火的研究主题是这些CVPR 2024|文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRFCVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题何恺明“被拒”缺席、语言模型大行其道,今年的CVPR,彻底变了?CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务CVPR 2024 | 港理工联合OPPO提出统一且通用的视频分割大模型黄仁勋提到的机器人世界,还需要AI数据来“调教” | CVPR 2024CVPR 2024 | DeiT全新升级!DeiT-LT:针对长尾数据的改进模型
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。