Bendi新闻
>
首个!上交Ð提出PromptSR:基于文本提示扩散的图像超分辨率

首个!上交&ETH提出PromptSR:基于文本提示扩散的图像超分辨率

5月前

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【图像复原和求职】交流群

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文搞科研,强烈推荐!

作者:星晴(已授权转载)

https://zhuanlan.zhihu.com/p/678934551

论文:https://arxiv.org/abs/2311.14282
代码(即将开源):
https://github.com/zhengchen1999/PromptSR

ETH Yulun Zhang新作,用Diffusion+Prompt 做SR的,思路很清晰

Motivation

SR需要先验去指导图像复原,LR可以看成一个prior,那么这篇文章就给出了另一个degradation prior,即text prompts。具体而言,用text描述degradation,然后作为prompt输入Diffusion Model,指导DM对图像的超分,思路清晰。

Preliminary

这篇文章的解读默认读者已经了解了相关前置知识。阅读这篇文章之前,除了基本的超分知识外,需要了解的前置知识如下:

  1. Diffusion相关文章(包括Stable Diffusion)

  2. ControlNet

  3. Diffusion + SR的相关文章:如DiffBIR, StableSR, PASD等,后续也会对比这些文章

Method

1. 去除了预处理模块:整体的结构对比DiffBIR与PASR,没有预处理的restoration module;参考StableSR,推测预处理提前清除退化的影响,可能效果不是特别明显而且增加了训练成本;

2. 没有使用ControlNet:DiffBIR, PASD均使用了ControlNet(StableSR也用了类似模块),输入LR,将输出与UNet的Decoder融合,从而达到加入LR先验去控制DM保真度的效果;而这里是将LR进行upsampling和输入Noisy image拼接之后直接输入UNet,同样可能是为了降低训练成本和inference time;

3. 加入了描述Degradation的Text Prompts:之前的PASD使用了高层语义信息(包括分类、分割、Caption)作为prompts,这里作者认为LR图像已经能够提升足够的语义信息用于恢复了,需要用退化相关的prompts以此提升退化建模的能力。这里其实我的看法是,之前提到的预处理模块其实就是在一定程度上解决了退化建模问题,而这里删去了这个模块,用这个text prompts完全可以弥补去掉预处理模块的缺陷。

4.Text Encoder用预训练的CLIP模型


以下是对比之前模型架构图:

DiffBIR

PASD

StableSR


Text-Image Generation Pipeline

这块是本篇论文的核心部分,即生成图像对-文本配对的数据,图像对就是原先的HR-LR,文本则是描述退化的,对于每一种退化,将参数平均分成多个区间,每个区间用一个表示程度的词去描述,例如原先是 [Gaussian noise with noise level 1.5],这里就用[medium noise]表示,最后把所有的描述组合成一句话构成了text prompts。

Experiments

Datasets

训练集:LSDIR

测试集:合成数据集使用了Urban100, Manga109, LSDIR val, DIV2K val;真实数据集使用了RealSR, Real45


Results



Ablation Studies

其中这个不同类别prompts的结果还是挺有意思的(这里caption是BLIP产生的全局内容描述),就是caption+degradation还没有degradation好,作者解释说是两种prompts的gap导致caption会影响degradation prompts。

在CVer微信公众号后台回复:论文,即可下载论文和代码链接!快学起来!


超分辨率和扩散模型交流群成立

扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-超分辨率或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如超分辨率或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

来源:CVer

相关新闻

Diffusion4D:首个4D视频生成扩散模型!数分钟内实现4D内容生成,超81K的4D数据集已开源!CVPR 2024 | MotionEditor:首个面向动作编辑的视频扩散模型首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源专治大模型说胡话,精确率100%!华科等提出首个「故障token」检测/分类方法跌惨了!CAIE官宣秋季成绩报告!A*率超10%的只有7个科目!清华开源全球首个基于U-ViT的多模态扩散大模型UniDiffuser医学顶刊TMI 2024!首个研究医疗AI算法公平性的眼科图像分类数据集CVPR 2024 | 通用视觉新突破!UC伯克利提出首个无自然语言的纯视觉大模型Nature子刊:超声新突破:超分辨率超声定位显微镜,捕捉超早期心脏疾病的蛛丝马迹准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源ICLR 2024 首个!Harvard FairSeg:第一个用于医学分割的公平性数据集首个4D视频生成扩散模型!数分钟实现4D内容生成,超81K优质数据集已开源历史首个!联合国大会通过有关AI的全球决议草案;库克在中国首谈生成式AI;周鸿祎:手机厂商不做AI会成为下个诺基亚丨AI周报1/29 波士顿新闻总汇 | 德州局势紧张:内战一触即发! 麻州将实行全国首个帮助难民家庭找到长期住房的试点项目拜登支持率反超川普!民主党会有新候选人?首场总统辩论可能出现的4种结果加拿大电信投诉激增、Rogers断网瘫痪、投诉率史上最多!网友:月费死贵还总断、没个靠谱的ICML 2024 | 面向第三代推荐系统:Meta提出首个生成式推荐系统模型最新突破!HyperSIGMA:全球首个十亿级高光谱智能理解基础模型今日arXiv最热大模型论文:首个面向AI的python编程框架,提升大模型编程能力新思路科研人员研发首个基于石墨烯的功能芯片纽约要乱了!首个草案发布:人人在家可种大麻 房东也无权阻止纽约将人人都可在家种大麻!首个草案发布:房东不能禁止租客种Europrivacy认证即将正式落地:欧盟首个获批的官方GDPR认证机制注册制首例!上交所出手:“拉黑”该发行人5年!
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。