CVPR 2024 | 和马赛克说拜拜!华为、清华等提出基于认知的万物超分大模型
然而,现有的超分方法存在一些局限性,如下图所示,主要有以下两个方面:
一是缺乏泛化能力。为了实现更好的超分效果,通常需要针对特定场景使用特定传感器采集到的数据来进行模型训练,这种学习方式拟合了某种低清图像和高清图像间的映射,但在其他场景下表现不佳。此外,逐场景训练的方式计算成本较高,不利于模型的部署和更新。
二是缺乏理解能力。现有的超分方法主要依赖于从大量数据中学习图像的退化分布,忽视了对图像内容的理解,无法利用常识来准确恢复物体的结构和纹理。
▲ 图2. 真实场景超分 SOTA 方法的局限性:(行一)难以处理训练集外的退化分布;(行二)难以利用常识恢复物体结构。
人类在处理信息时,有两种不同的认知反馈系统。诺贝尔奖经济学得主丹尼尔・卡尔曼在《思考,快与慢》中将它们称为系统一和系统二,如图 3 所示。
系统一是快速的、直觉的、基于记忆的反馈,比如,我们可以脱口而出十以内的加减运算。系统二是缓慢的、多步的反馈,比如,28x39 往往需要逐步运算。现有的超分方法更贴近系统一,它们主要依赖于从大量数据中学习图像的退化分布,忽视了对图像内容的理解,无法按照常识来准确恢复物体的结构和纹理,也无法处理域外的退化情况。
近日,由清华大学、华为诺亚方舟实验室、香港科技大学等机构提出的研究,通过将图像外观和语言理解结合起来生成认知特征,实现了认知超分辨率框架,使 SR 模型能够理解低分辨率图像。
本文认为,真正能有效应用于真实场景的画质大模型应该具备类似系统二的多步修复能力,即基于对图像内容的认知,结合先验知识来实现图像超分(Cognitive Super-Resolution,CoSeR)。
https://coser-main.github.io/
论文地址:
代码地址:
▲ 图1. LR,GR 和 SR 分别为低清图像、基于对低清图像的认知生成的参考图像和超分图像。
CoSeR 模仿了人类专家修复低质量图像自上而下的思维方式,首先建立对图像内容的全面认知,包括识别场景和主要物体的特征,随后将重点转移到对图像细节的检查和还原。本文的主要贡献如下:
1. 提出了一种通用的万物超分画质大模型 CoSeR,它能够从低清图像中提取认知特征,包括场景内容理解和纹理细节信息,从而提高模型的泛化能力和理解能力;
2. 提出了一种基于认知特征的参考图像生成方法,它能够生成与低清图像内容一致的高质量参考图像,用于指导图像的恢复过程,增强图像的保真度和美感度;
3. 提出了一种「All-in-Attention」模块,它能够将低清图像、认知特征、参考图像三个条件注入到模型当中,实现多源信息的融合和增强;
4. 在多个测试集和评价指标上,相较于现有方法,CoSeR 均取得了更好的效果。同时,CoSeR 在真实场景下也展现颇佳。
图 4 展示了 CoSeR 的整体架构。CoSeR 首先使用认知编码器来对低清图像进行解析,将提取到的认知特征传递给 Stable Diffusion 模型,用以激活扩散模型中的图像先验,从而恢复更精细的细节。
此外,CoSeR 利用认知特征来生成与低清图像内容一致的高质量参考图像。这些参考图像作为辅助信息,有助于提升超分辨率效果。最终,CoSeR 使用提出的「All-in-Attention」模块,将低清图像、认知特征、参考图像三个条件注入到模型当中,进一步提升结果的保真度。
▲ 图4. 本文提出的万物超分画质大模型CoSeR
图 5 展示了 CoSeR 参考图像生成的效果。与直接从低清图像中获取描述的方法相比,CoSeR 的认知特征保留了细粒度的图像特征,在生成具有高度相似内容的参考图像时具有优势。在图 5 的第一行,使用 BLIP2 从低清图像生成的描述无法准确识别动物的类别、颜色和纹理。
此外,CoSeR 的认知特征对于低清图像更加鲁棒。例如,在图 5 的第二行,由于输入分布的差异,BLIP2 会生成错误的图像描述,而 CoSeR 生成了内容一致的高质量参考图像。最后,相比于 BLIP2 大模型接近 7B 的参数量,CoSeR 的认知编码器只有其 3% 的参数量,极大提升了推理速度。
▲ 图5.(行一)使用 BLIP2 描述生成的参考图和 CoSeR 生成的参考图;(行二)CoSeR 的高鲁棒性。
表 1 和图 6 展示了 CoSeR 与其他方法的定量和定性结果对比。CoSeR 在含有丰富类别的 ImageNet 数据集及真实超分数据集 RealSR 和 DRealSR 上,都取得了不错的结果。CoSeR 能够恢复出更加清晰和自然的图像细节,同时保持了图像的内容一致性和结构完整性。
▲ 表1. 定量结果对比
▲ 图6. 定性结果对比
本文提出的 CoSeR 模型为图像超分辨率技术提供了一种新的思路和方法,它能够从低清图像中提取认知特征,用于激活图像先验、生成参考图像,从而实现高质量的万物超分效果。研究人员表示,未来的研究重点是如何在不影响超分性能的情况下加速采样,以获得更高的视觉质量。
此外,作者还将探索统一模型在更多样化的图像修复任务中的表现。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者