Bendi新闻
>
揭秘美图AI局部重绘技术

揭秘美图AI局部重绘技术

8月前

作者 | 美图影像研究院

最近,靠着出其不意的扩图效果,“AI 扩图”功能凭借搞笑的补全结果频频出圈,火爆全网。网友们踊跃尝试,180 度的大反转也让网友们直呼离谱,话题热度高居不。

在带来欢笑和热度的背后,也代表人们在时刻关注着 AI 究竟能不能真正帮助他们解决实际问题,优化使用体验。但可以预见的是,随着 AIGC 技术的快速发展,正在加速推动 AI 应用场景落地,我们也将迎来一场全新的生产力变革。

近日,美图公司旗下 WHEE 等产品上线 AI 扩图及 AI 改图功能,只需简单的提示性输入,用户就可以任意修改图像、移除画面元素、扩充画面,凭借便捷的操作与惊艳的效果,大大降低工具使用门槛,为用户带来高效、优质的图像创作体验。

由美图视觉大模型 MiracleVision 

提供支持的 AI 改图效果

本次全新上线的 AI 扩图和 AI 改图功能基于美图自研的 AI 局部重绘技术,由美图影像研究院(MT Lab)依托美图视觉大模型 MiracleVision 倾力打造。现在,就一起来揭晓这项黑科技背后的奥秘吧!

美图 AI 局部重绘技术:
MiracleVision(奇想智能)加持

众所周知,图像局部重绘是图像编辑细分功能中使用频率最高的功能之一,根据需要重绘的位置(即 mask 区域)不同可以进一步细分为内部区域重绘 (inpaint) 和外部区域重绘 (outpaint)。

传统的图像局部重绘方法往往要求用户使用专业图像编辑工具手动重绘目标区域,或者根据用户划定的目标区域,使用基于 GAN(生成对抗网络)的方法进行自动化的像素内容填充。前者需要用户具备一定的美术功底和对专业工具的熟练使用,门槛较高,对普通用户来说难度大;而后者填充出来的区域通常缺乏真实性,在纹理细节等方面表现欠佳,当用户划定的 mask 区域越大,填充出来的效果也会越来约失真。

除此之外,基于 GAN 的方法只能根据周围的像素信息进行填充,并不能够根据文本引导凭空生成出新的内容,这极大地限制了它的使用场景。

基于 GAN 方法的重绘结果

而当前大热的扩散模型(Diffusion Model)虽然将图像生成效果推向了一个新高度,但在图像重绘领域中仍在存在一些问题,比如常见的 Stable Diffusion 1.5、Stable Diffusion 2.0、SDXL 等扩散模型由于输入图像分辨率的限制,在生成纹理上有时无法与原图完全贴合,存在边界感;以及在执行目标消除任务时,容易不受 prompt(提示词)的限制,凭空生成一些其它的前景目标,无法输出纯背景像素。

Stable Diffusion 1.5 的局部前景消除结果

为了实现自然过渡的画面融合,达到“以假乱真”的目标,美图影像研究院 (MT Lab) 基于自研 AI 视觉大模型——MiracleVision(奇想智能)强大的图像生成能力以及多模态理解能力,实现了简单、高效且逼真的 AI 局部重绘效果。

用户只需要手动涂抹或通过智能分割算法,选择想要编辑的区域,再输入具体修改目标,就能够在保持图像主体特征的前提下,进行任意编辑。支持包括画面元素消除、修改、移动、替换及画面扩充等重绘操作,结合高精度纹理生成技术,生成部分与原图高度融合,真正做到画面“不失真”,不仅极大提升用户的图像编辑效率,还能让废片“变废为宝”。

MiracleVision(奇想智能)消除结果

MiracleVision(奇想智能)替换效果前

MiracleVision(奇想智能)替换效果后

MiracleVision(奇想智能)AI 改图效果

强大模型能力,让图像编辑随心所欲

美图 AI 局部重绘模型基于扩散模型(Diffision Model)技术构建了完整的 inpaint & outpaint 模型框架,将内部区域重绘、前景目标消除以及外部区域扩展等任务统一到同一个方案中进行解决,并针对一些特定的效果问题做了专门的优化设计。

MiracleVision(奇想智能)模型属于文生图模型,虽然可以通过改造第一卷积层,并将 unet 整体微调的方式,使其适应 inpaint 任务,但这样需要修改 unet 原有的权重,在训练数据量不足时可能会导致模型性能的下降。

因此,为了充分利用 MiracleVision(奇想智能)已有的生成能力,团队在局部重绘模型中不对 MiracleVision(奇想智能)的 unet 模型进行直接微调,而是使用 controlnet 的方式增加一个 mask 的输入分支进行控制。

同时,为了节约训练成本,加快推理速度,使用压缩后的 controlnet 模块进行训练,尽可能地减少计算量。在训练的过程中,unet 模型的参数会被固定,只有 controlnet 模块会进行更新,最终使整个模型获得 inpaint 的能力。

美图 AI 局部重绘模型架构图

outpaint 任务则是 crop 任务的反向操作。crop 任务是沿着图像边界对原图像进行剪裁,只保留需要的部分,是一种图像内容的减法操作;而 outpiant 任务则是沿着图像边界向外进行扩展,借助模型的生成能力来凭空创造出原本不存在的内容,是一种图像内容的加法操作。

本质上,outpaint 任务也可以看作是一种特殊的 inpaint 任务,只不过 mask 区域位于图像的外围。

MiracleVision(奇想智能)AI 扩图效果

由于 outpaint 任务中的 mask 区域只能从图像内部获取引导信息,其他的方向上都是图像边界,因此生成的内容更加具有随机性,会更加的发散。为了填补图像外围的空白区域,同时保证画面拓展的准确性,团队依托场景识别算法对图像风格及内容进行推断,并充分利用图像内容的相关性,通过在扩展边缘处镜像复制原图中的像素并叠加随机噪声,为模型提供适合的初始先验,从而保证生成内容的合理性,并使得边界过渡更加平滑。

通过多种训练策略,
自由控制物体生成与消除

一般的扩散模型在执行 inpaint 任务时更擅长替换而不是消除,当需要消除某一目标时,模型很容易在 mask 区域中绘制出一些原本不存在的新前景目标,特别是当 mask 区域的面积比较大的时候这一现象尤为明显,即使这些目标并没有出现在 prompt 中。究其原因,主要是以下 3 个方面:

  1. 训练集的 prompt 中,一般只描述了图像中有什么,而不会描述图像中没有什么,因此让训练后的模型根据提示生成某一目标很容易,但是不让它生成目标却很难。即便有 Classifier-Free Guidance 策略,可以通过把不想要的物体添加到负词中的方式来抑制该目标的生成,但始终无法将所有可能的目标全部写到负词中,因此模型还是会倾向于生成一些意想不到的目标;

  2. 从训练数据的分布来看,由于大规模图像训练集中的绝大部分图像都是由前景和背景组合而成的,纯背景的图像占比较小,这意味着扩散模型在训练时就已经学习到了一种潜在的规律,即一幅图像中大概率存在着某一个目标前景(即使 prompt 中并没有提到它),这也导致模型在执行 inpaint 任务时更倾向于在 mask 区域中生成些什么,从而使输出图像更接近于训练时的分布;

  3. 待填充的 mask 区域的形状有时也会包含一定的语义信息,比如在没有其他引导的情况下,模型会更倾向于在一个形状为猫的 mask 区域内填充一只新的猫,从而导致消除任务失败。

为了使 MiracleVision(奇想智能)同时具备目标生成以及目标消除的能力,团队采用了多任务的训练策略:

  1. 在训练阶段,当 mask 区域落在纹理较少的纯背景区域上时,增加一个特定的 prompt 关键词作为触发引导词,并在模型推理阶段,将这个关键词作为正向引导词加入到 prompt embedding 中,促使模型更多地生成背景区域。

  2. 由于纯背景图像在整个训练集中占比较小,为了提高其对于训练的贡献程度,在每个训练 batch 中,手动采样一定比例的背景图像加入到训练,使背景图像在训练样本中的占比总体保持稳定。

  3. 为了降低模型对于 mask 形状的语义依赖,在训练阶段还会随机生成各种不同形态 mask,增加 mask 形状的多样性。

高精度纹理生成,融合更自然

由于训练集中高清的纹理数据只占全部训练数据的一小部分,因此在执行 inpaint 任务时,通常不会生成纹理非常丰富的结果,导致在原图纹理比较丰富的场景中,容易出现融合不自然、存在边界感的情况。

为了解决这个问题,团队基于自研纹理细节模型作为引导模型,以此来辅助 MiracleVision(奇想智能)提高生成质量,抑制过拟合,使得生成区域和原图的其他区域之间能够更好地贴合在一起。

原图v.s未增加纹理细节v.sMiracleVision扩图效果

速度更快、效果更优、交互更高效!

扩散模型类方案在推理时通常需要进行多步逆扩散过程,导致单张图片的处理耗时过长。为了在保持生成质量的同时优化用户体验,美图影像研究院(MT Lab)团队为 AI 局部重绘技术打造了专项调优方案,最终达到性能与效果的最佳平衡。

首先,将 MiracleVision(奇想智能)前后处理与推理过程中大量的矩阵计算,尽可能地移植到 GPU 上并行计算,从而有效地加快了计算速度,并减少 CPU 端的负载。同时,在组图的过程中,尽可能的对 layer 进行 fuse,使用 FlashAttention 来降低显存占用,提升推理性能,并对 Kernel 实现进行 Tuning,针对 NVIDIA 不同的显卡最大化 GPU 算力使用。

除此之外,依托自研的模型参数量化方法,将 MiracleVision 量化至 8bit 而不明显损失精度。由于不同的 GPU 显卡对 8bit 量化的支持存在差异性,因此创新性采用混合精度策略,在不同的服务器资源环境下自适应地选取最优算子,从而实现总体加速的最优解。

而对于分辨率较高的用户输入图像,由于受限于服务器资源与时间成本,很难在原始分辨率情况下直接进行推理。对此,团队通过先压缩图像分辨率至合适的大小,再基于 MiracleVision(奇想智能)进行推理,其后使用超分算法复原图像至初始分辨率下,再与原图进行图像融合,从而既保持生成图像的清晰效果,又节约推理过程中的显存占用和执行时间。

美图与三星深度合作,
以 AI 打造手机图像编辑新体验

1 月 25 日,三星电子举办 Galaxy S24 系列中国新品发布会。美图公司深化与三星合作,为三星新品 Galaxy S24 系列手机相册打造全新的 AI 图像编辑体验,美图影像研究院(MT Lab)自主研发的生成式编辑——AI 扩图与 AI 改图功能也已正式上线,助力手机图像编辑创作打开新空间。

通过 AI 改图功能,用户只需长按要编辑的图像,即可轻松移动、消除或调整图像大小。此外,在画面水平线不垂直时,AI 扩图功能可以在用户调整角度后,智能填充照片的缺失区域,修正画面构图。

基于 MiracleVision(奇想智能)带来的 AI 功能,美图不仅助力用户在手机端轻松实现专业级的编辑效果,创造出更具个性的照片作品,也将持续推动和提升整个手机行业的 AI 图像处理能力。

依托美图影像研究院(MT Lab)强大的技术能力,MiracleVision(奇想智能) 在不到半年时间已经迭代至 4.0 版本。未来,美图将持续致力于提升在电商、广告、游戏等行业的用户体验,助力不同场景的从业者工作流提效。

今日荐文


雷军、周鸿祎两会力挺大模型,隔壁印度GenAI却要被谷歌Gemini“扼杀”?


机器人再度大幅进化!阿西莫夫三法则还有效吗?| 大模型一周大事


OpenAI硬怼马斯克:没到AGI,就不开源;求职人潮“挤崩”智联招聘;周鸿祎、李志飞开AI 课,被网友质疑 | AI周报


试了下 Stable Video,我的建议是不如不用|AI 测评室


阿里最新图生视频模型效果好得可比肩Sora,但0代码“假”开源让国内外网友骂翻了天?

你也「在看」吗? 👇

微信扫码关注该文公众号作者

来源:AI前线

相关新闻

爆火!美图AI扩图和改图技术大揭秘黄仁勋、扎克伯格巅峰对谈实录:万字长文揭秘Meta的未来AI图景顺丰揭秘:大模型技术如何重塑物流供应链苹果AI上线iPhone,进化版Siri却没有ChatGPT!47页技术报告揭秘自研模型苹果AI震撼上线iPhone,进化版Siri却没有ChatGPT!47页技术报告揭秘自研模型69岁盖茨未离场!美媒揭秘他如何在幕后操盘微软AI波士顿动力技术揭秘:后空翻、俯卧撑与翻车,6年经验、教训总结ACL 2024 Oral | 大模型也会被忽悠?揭秘AI的信念之旅揭秘美本热门工程专业申请新趋势及规划建议!东风岚图 AI 技术人才培养三步走:认知构建、技术提升、场景实战 | 极客时间企业版字节跳动科学家组团演讲,揭秘AI视频生成大招!8人半年肝出开源版GPT-4o,0延迟演示全网沸腾!背后技术揭秘,人人免费用藤校赢麻了!达特茅斯校友,OpenAI CTO最新母校访谈:揭秘AI未来发展趋势!揭秘 AI 多模态融合的“智慧核心”:六校联合发布低质数据融合新篇章独家揭秘美本三大“理工高危专业”申请破解之道!西安交大发表鲁棒视觉问答综述,揭秘AI视觉问答的“超强大脑”丨IEEE TPAMI揭秘美股长线投资的真实回报揭秘AI推理芯片的未来揭秘美白之道,这款面霜还超高性价比,绝!美国护理行业人才缺口巨大,薪资高福利待遇好,揭秘在美当护士的流程和条件!周迅、刘雯、窦靖童冒雨来看的香奈儿大展,首度在上海重磅揭秘重磅揭秘:美国黑客一年攻击中国超4500万次!哥大前招生官首次揭秘:美本申请最易忽视的「致命」错误,你中招了吗?揭秘你的美妆心选,VOGUE调查等你赢好礼!
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。