Bendi新闻
>
底层视觉大模型!董超团队新作SUPIR:扩散生成先验的图像复原

底层视觉大模型!董超团队新作SUPIR:扩散生成先验的图像复原

10月前

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【图像复原和求职】交流群

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文搞科研,强烈推荐!

作者:星晴(已授权转载)
https://zhuanlan.zhihu.com/p/679850929

Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild

2024.1.25,董超XPixelGroup发布的一个新作。这篇文章用20M+张图像数据,结合SDXL模型进行了图像复原,使用64张A6000训练10天,可以看做是底层视觉领域迈向大模型的一个里程碑。本文对其进行详细的解读。

主页:https://supir.xpixel.group/

论文:https://arxiv.org/abs/2401.13627

这是部分可视化结果,整体视觉效果还是很好的:

另外Project Page上有一些可交互的可视化结果。

Introduction

在其他CV领域有很多大模型工作出现,比如SAM。而由于计算资源、模型架构、训练数据以及生成模型等工程约束条件的限制,扩大图像复原模型是很具有挑战性的。文章的motivation也就是要在一定程度上突破这样的诸多限制,构建一个较大的模型用于图像复原。

该工作使用了StableDiffusion-XL (SDXL)作为生成模型,设计并训练了一个参数量为600M的adapter,收集了20M+高质量高清数据用于训练,并且每张图片都有相应的描述性文本作为prompt;同时,使用了一个参数量13B的多模态LLM用于提供图像内容prompt。

Related Work

相关工作可以参考StableSR, PASD, DiffBIR等等。另外可以参考我对PromptSR, SeeSR的解读:

https://zhuanlan.zhihu.com/p/678934551https://zhuanlan.zhihu.com/p/678970240

Method

整体架构见下图

Model Scaling Up

Generative Prior

可选的生成式大模型有Imagen, IF, SDXL。作者首先给出了选择SDXL的原因:Imagen和IF都是层次化方法,即先生成一个低分辨率的图像然后逐步上采样,SDXL一步到位生成高分辨率图像能够更加有效地利用其参数来提升图像质量,而不是进行文本解释,更加符合本工作的目标;

另外,SDXL采用了一种Base-Refine策略。在Base model中,生成的图像多样但质量较低,Refine model则提升了这些图像的感知质量。与Base model相比,Refine model使用的训练图像质量更高,但多样性较少。由于训练数据已经是大量高质量的图像,SDXL的两阶段设计就没有必要,因此选择了参数更多的基础模型。


Degradation-Robust Encoder

在SDXL中,diffusion过程是在latent space进行的,HQ图像要经过一个预训练的encoder从而映射为latent HQ,前面的一些工作为了更好地利用LQ先验,将LQ也用同一个encoder映射到latent space。而作者认为这个encoder没用LQ图像训练过(这样会导致其对退化敏感,受到退化的影响),会影响模型对LQ图像内容的判断,可能会产生伪影。因此作者用LQ和HQ对预训练encoder进行了finetune,从而得到一个退化鲁棒的encoder,不会不受到退化影响。

Large-Scale Adaptor Design

当前的几种adapter, LoRA, T2I adaptor, ControlNet,都有局限性,最常用的ControlNet的问题在于如果在SDXL这种大模型上用的话,encoder复制一份代价太大,那么作者主要对其有两个改动:


Scaling Up Training Data

Image Collection

图像复原领域数量多且质量高的数据集目前尚未出现,因此作者收集了一个数据集,包含20M张1024*1024的高质量图像。并加入了70K张未对齐的FFHQ-raw数据集图像从而提升face restoration的能力。可以看到和其他数据集对比如下:

Multi-Modality Language Guidance


Negative-Quality Samples and Prompt

概括而言,就是加入negative prompts,也就是对图像质量负面评价的词,比如oil painting, cartoon, blur, dirty, messy, low quality, deformation, low resolution, over-smooth等,然后将positive和negative prompts得到的输出融合,公式如下:

但是只有negative prompts没有negative samples,模型无法理解negative prompts,因此作者在训练数据中加入了negative samples,具体而言,用SDXL生成100K张低质量图像。效果如图:

Restoration-Guided Sampling

Diffusion model做restoration会面临一个fidelity-Realness的trade-off,强大的生成能力可能会造成保真度的下降。因此作者提出了一种采样策略,基于EDM。简单概括,在DM生成图像的早期阶段,主要生成低频信息,那么需要约束其与LQ图像的一致性,提高保真度,在后期,主要生成高频细节纹理,那么这个时候就不需要过多约束,保证生成的真实性效果,方法如图所示,详细说明见论文。

Experiments

Datasets

20K带文字描述的高质量图像+70K FFHQ人脸图像+100K negative-quality samples

Results

分别在合成数据和真实数据上进行了实验,具体见论文。

注意虽然有参考的指标不是SOTA,但无参考指标对于图像感知质量更加重要。

在CVer微信公众号后台回复:论文,即可下载论文和代码链接!快学起来!


图像复原交流群成立

扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-图像复原微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如图像复原+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

来源:CVer

相关新闻

GPT-4级模型Grok开源可商用!卷底层大模型的公司危了视频生成大战2.0!大厂狂卷底层模型,创企5个月吸金44亿星舰发射成功:马斯克的3大底层能力,值得学习!ICML 2024 | 川大发布用于开集图像复原的测试时退化适应框架损失达6000万美元?台积电回应:晶圆厂设备复原率超七成!英伟达也发声......芒格:世界上99%的人永远处于底层的99%,这就是现实!婚姻的底层真相:无论和谁过,其实都是和自己过巨雷!XX财富700亿资金池底层大曝光!人生建议:远离底层的贫穷绞杀MIT、大毛、耶鲁…美本申请风向要变?终于有人说清标化政策的底层逻辑!不看吃亏特殊年代的私人记录:底层民众的真实命运逃离底层最快的方式:数字戒断废掉一个人最隐蔽的方式:陷于底层习惯热搜上越看越后怕的“孕妇车贴事件”:一定要远离底层的贫穷绞杀高考出分第2天,700分“迈巴赫少爷”家庭背景曝光:这才是高考的底层逻辑刚刚唐尚珺高考成绩出来了:谁是底层并不遥远的救世主EMBA管理智库丨迈向共同富裕:企业社会责任的底层逻辑与创新方向吴军:共识是财富的底层逻辑吴军:共识是财富的底层逻辑|巴伦读书会生意的底层逻辑,变了!一诺对话普林斯顿大学教授:成为超级个体的底层能力——人人可创业的思维方式华尔街见闻对话戴康(一):如何击穿投资的底层逻辑?法国低调贵妇都用什么?奢华配方,一瓶顶3瓶的复原蜜,感受护肤快乐!仅限专业人士:聊聊新能源类乡村项目的底层风控逻辑
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。