Bendi新闻
>
CVPR 2024 | 和马赛克说拜拜!华为、清华等提出基于认知的万物超分大模型

CVPR 2024 | 和马赛克说拜拜!华为、清华等提出基于认知的万物超分大模型

3月前

图像超分辨率技术旨在将低分辨率图像转换为高分辨率图像,从而提高图像的清晰度和细节真实性。随着超分技术的发展和手机硬件性能的提升,人们期望拍摄出更加清晰的照片。这项技术在手机影像等领域有着广泛的应用和需求。


然而,现有的超分方法存在一些局限性,如下图所示,主要有以下两个方面:


一是缺乏泛化能力。为了实现更好的超分效果,通常需要针对特定场景使用特定传感器采集到的数据来进行模型训练,这种学习方式拟合了某种低清图像和高清图像间的映射,但在其他场景下表现不佳。此外,逐场景训练的方式计算成本较高,不利于模型的部署和更新。


二是缺乏理解能力。现有的超分方法主要依赖于从大量数据中学习图像的退化分布,忽视了对图像内容的理解,无法利用常识来准确恢复物体的结构和纹理。



▲ 图2. 真实场景超分 SOTA 方法的局限性:(行一)难以处理训练集外的退化分布;(行二)难以利用常识恢复物体结构。


人类在处理信息时,有两种不同的认知反馈系统。诺贝尔奖经济学得主丹尼尔・卡尔曼在《思考,快与慢》中将它们称为系统一和系统二,如图 3 所示。 


系统一是快速的、直觉的、基于记忆的反馈,比如,我们可以脱口而出十以内的加减运算。系统二是缓慢的、多步的反馈,比如,28x39 往往需要逐步运算。现有的超分方法更贴近系统一,它们主要依赖于从大量数据中学习图像的退化分布,忽视了对图像内容的理解,无法按照常识来准确恢复物体的结构和纹理,也无法处理域外的退化情况。



▲ 图3. CoSeR 采用类似于人脑中系统二的修复方式


近日,由清华大学、华为诺亚方舟实验室、香港科技大学等机构提出的研究,通过将图像外观和语言理解结合起来生成认知特征,实现了认知超分辨率框架,使 SR 模型能够理解低分辨率图像。 


本文认为,真正能有效应用于真实场景的画质大模型应该具备类似系统二的多步修复能力,即基于对图像内容的认知,结合先验知识来实现图像超分(Cognitive Super-Resolution,CoSeR)。




项目主页:

https://coser-main.github.io/

论文地址:

https://arxiv.org/abs/2311.16512

代码地址:

https://github.com/vinhyu/coser


▲ 图1.  LR,GR 和 SR 分别为低清图像、基于对低清图像的认知生成的参考图像和超分图像。


CoSeR 模仿了人类专家修复低质量图像自上而下的思维方式,首先建立对图像内容的全面认知,包括识别场景和主要物体的特征,随后将重点转移到对图像细节的检查和还原。本文的主要贡献如下: 


1. 提出了一种通用的万物超分画质大模型 CoSeR,它能够从低清图像中提取认知特征,包括场景内容理解和纹理细节信息,从而提高模型的泛化能力和理解能力;


2. 提出了一种基于认知特征的参考图像生成方法,它能够生成与低清图像内容一致的高质量参考图像,用于指导图像的恢复过程,增强图像的保真度和美感度;


3. 提出了一种「All-in-Attention」模块,它能够将低清图像、认知特征、参考图像三个条件注入到模型当中,实现多源信息的融合和增强;


4. 在多个测试集和评价指标上,相较于现有方法,CoSeR 均取得了更好的效果。同时,CoSeR 在真实场景下也展现颇佳。


方法介绍

图 4 展示了 CoSeR 的整体架构。CoSeR 首先使用认知编码器来对低清图像进行解析,将提取到的认知特征传递给 Stable Diffusion 模型,用以激活扩散模型中的图像先验,从而恢复更精细的细节。 


此外,CoSeR 利用认知特征来生成与低清图像内容一致的高质量参考图像。这些参考图像作为辅助信息,有助于提升超分辨率效果。最终,CoSeR 使用提出的「All-in-Attention」模块,将低清图像、认知特征、参考图像三个条件注入到模型当中,进一步提升结果的保真度。


 图4. 本文提出的万物超分画质大模型CoSeR


图 5 展示了 CoSeR 参考图像生成的效果。与直接从低清图像中获取描述的方法相比,CoSeR 的认知特征保留了细粒度的图像特征,在生成具有高度相似内容的参考图像时具有优势。在图 5 的第一行,使用 BLIP2 从低清图像生成的描述无法准确识别动物的类别、颜色和纹理。 


此外,CoSeR 的认知特征对于低清图像更加鲁棒。例如,在图 5 的第二行,由于输入分布的差异,BLIP2 会生成错误的图像描述,而 CoSeR 生成了内容一致的高质量参考图像。最后,相比于 BLIP2 大模型接近 7B 的参数量,CoSeR 的认知编码器只有其 3% 的参数量,极大提升了推理速度。



 图5.(行一)使用 BLIP2 描述生成的参考图和 CoSeR 生成的参考图;(行二)CoSeR 的高鲁棒性。



结果展示

表 1 和图 6 展示了 CoSeR 与其他方法的定量和定性结果对比。CoSeR 在含有丰富类别的 ImageNet 数据集及真实超分数据集 RealSR 和 DRealSR 上,都取得了不错的结果。CoSeR 能够恢复出更加清晰和自然的图像细节,同时保持了图像的内容一致性和结构完整性。


 表1. 定量结果对比


 图6. 定性结果对比


本文提出的 CoSeR 模型为图像超分辨率技术提供了一种新的思路和方法,它能够从低清图像中提取认知特征,用于激活图像先验、生成参考图像,从而实现高质量的万物超分效果。研究人员表示,未来的研究重点是如何在不影响超分性能的情况下加速采样,以获得更高的视觉质量。 


此外,作者还将探索统一模型在更多样化的图像修复任务中的表现。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

来源:PaperWeekly

相关新闻

丰田、本田、马自达等车企造假,斯坦福团队抄袭清华系大模型,巴菲特公司股票跌98%,周星驰首部短剧上线,这就是今天的其他大新闻!乔布斯看了得哭!与小米、华为的AI 大模型应用打擂台,苹果盖不住的“安卓味儿”都上了热搜CVPR 2024 | 加快199倍!清华和哈佛提出LangSplat:3D语义高斯泼溅清华、华为等提出iVideoGPT:专攻交互式世界模型清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!清华系又造大模型标杆!2B规模干翻Mistral-7B,超低成本为AI Agent护航专治大模型说胡话,精确率100%!华科等提出首个「故障token」检测/分类方法OpenAI等被曝面临反垄断调查,魔兽国服回归测试将开启,快手大模型开放邀测,华为向奇瑞转让智界商标,这就是今天的其他大新闻!俞敏洪称东方甄选做得乱七八糟;巴菲特旗下公司跌逾99%;斯坦福团队抄袭清华系大模型;丰田、本田和马自达就造假公开道歉...视觉Mamba模型的Swin时刻,中国科学院、华为等推出VMamba识别细胞也能用大模型了!清华系团队出品,已入选ICML 2024 | 开源智谱再投AI Infra清华系公司!已在大模型生态投资超13家企业哪里要动点哪里!腾讯联合清华、港科大推出全新图生视频大模型CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet精度最高降幅60%!SOTA只是假象?CVPR 2024为你揭示CLIP和LLaVA-Next等模型“骗局”!清华开源全球首个基于U-ViT的多模态扩散大模型UniDiffuserCVPR 2024 | 无参数无训练也能大幅涨点!港城大等提出全新小样本3D分割模型岚图华为官宣智驾新车,还有最高效800V、5C超充、AI大模型发布CVPR 2024 | 通用视觉新突破!UC伯克利提出首个无自然语言的纯视觉大模型曝苹果国行 AI 与百度、阿里、百川接触/华为盘古大模型 5.0 发布/OpenAI CTO 称 GPT-4「智商」相当于高中生OCR小模型仍有机会!华科等提出VIMTS:零样本视频端到端识别新SOTA北大学生优化清华系大模型,拿ASC全球超算大赛冠军炸锅!斯坦福AI团队抄袭清华系大模型,曝光之后直接跑路玩失踪……大模型时代的计算机视觉!CVPR 2024线上分享会全日程公布
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。