Bendi新闻
>
StyleMamba:图片风格不满意?一句话就能调!

StyleMamba:图片风格不满意?一句话就能调!

6月前
 夕小瑶科技说 原创
 作者 | Axe_越

你与哈利波特的距离,只剩一个StyleMamba!

“我想,把我的图变成朦胧马赛克”

“我想,我的画能不能变成美美的莫奈风格”

“我想,我刚刚拍的自拍能不能加上个摄魂怪滤镜(???)”

“...”

如今,这些堪比“哈利波特世界”魔咒的炫酷效果,正在AI界逐步成为现实

图片不喜欢?想要换一种风格? —— 说出你的想法,立马就能实现

论文标题:
StyleMamba - State Space Model for Efficient Text-driven Image Style Transfer

论文链接:
https://arxiv.org/pdf/2405.05027.pdf

动机

在计算机视觉和自然语言处理的交叉领域,文本驱动的图像风格转换技术近年来取得了显著的进展。与传统的图像驱动风格转换不同,文本驱动风格转换通过文本描述来指导图像的风格变换。这种方式不仅增强了灵活性,还提高了可解释性,因为文本提供了一种比具体参考图像更抽象、语义更丰富的风格或属性表达。这使得用户能够表达复杂的艺术概念和情感,而这是单独通过示例图像所不能传达的。

图像驱动风格转换

文本驱动风格转换

文本驱动的风格转换技术,如Clipstyler、DiffusionCLIP和TxST等,展示了文本在视觉多样性方面的巨大潜力。这些方法的核心思想是对齐文本和图像嵌入,使得风格化图像能够忠实地反映文本。然而,这些方法需要考虑文本描述的细微差别和视觉风格的一致性。更重要的是,它们需要数百次训练迭代和大量的GPU资源,这对实际应用来说效率很低。

为解决这两个问题,本文提出了StyleMamba。

方法

StyleMamba框架

  • 自动编码器(Auto Encoder):用于编码内容图像并重构风格化图像。考虑到在编码内容图像到丰富且压缩的隐空间方面的出色能力,以及对重要特征的保留能力,这里采用经过预训练的来自稳定扩散模型(Stable Diffusion Model)的变分自动编码器(VAE),从而实现准确的风格重构。
  • 风格融合模块(Style Fusion Module):这一模块通过结合自适应层规范化(Adaptive Layer Norm,AdaLN)和Mamba过程,有效地将文本风格特征与内容图像特征结合起来。由于只关注相关特征,Mamba的选择性过程加速了风格转移,从而加快了训练和推理速度。
  • SigLIP模块:SigLIP模块的引入,是为了增强风格融合过程。由于其丰富的语义编码能力,SigLIP在零样本分类准确率上要更优于CLIP,能更好地概括未见过的图像类别。

简单来说,在StyleMamba的操作流程中,输入的内容图像首先被转换为隐向量,而风格文本则被转换为嵌入,然后将他们在风格融合模块中融合,得到新的特征图。在文本到图像风格损失的指导下,解码器解码成风格化图像

损失函数

在文本驱动的图像风格转换领域,损失函数的设计是提升模型性能的关键。StyleMamba框架中引入了几种创新的损失函数,旨在更精确地对齐文本描述与图像风格,同时加速模型的训练过程。

  • 全局方向损失(Global directional loss):全局方向损失是StyleMamba的核心,它通过计算文本和图像特征的方向向量之间的余弦相似度,确保风格化过程与文本描述保持一致。这种损失函数的设计帮助模型更好地捕捉到文本表达的目标风格。

  • 掩方向损失(Masked directional loss):掩方向损失是对传统方向损失的扩展,它通过在图像的随机区域应用掩码,强化了模型对风格特征的学习。这种方法不仅提高了风格转换的一致性,还通过自监督的方式加快了重建过程,使模型在部分可见的风格特征下也能保持高度的风格保真度。

  • 二阶方向损失(Second-order directional loss):二阶方向损失是一个创新的设计,用于加速模型对风格化方向的调整。通过考虑连续迭代中风格化图像的变化,这种损失函数确保了向目标视觉风格的快速且连贯的过渡。它通过计算连续迭代期间图像特征差的平方范数,并通过动态调整项来加权,从而实现快速优化。

上图展示了二阶方向损失()如何在风格化的方向上进行快速调整。值得注意的是,它促进了精细化风格转变,确保了向目标视觉风格的快速连贯过渡。

这些损失函数的组合使用,不仅加快了模型的训练速度,还在风格转换的精确度和内容保持方面表现出色。通过这些创新的损失函数设计,StyleMamba能够在较少的训练迭代中,实现复杂风格的快速且高保真的转换,展示了其在艺术创作和实际应用中的巨大潜力。

实验

实验设置与评估指标

为评估StyleMamba的性能,本文使用了两个不同的数据集:COCO和WikiArt。这两个数据集在训练阶段均未被使用,以评估模型在捕捉和渲染复杂艺术风格方面的有效性。

这里采用了三个主要的评估指标来衡量模型的性能:

  • CLIP得分:通过计算文本和图像特征之间的余弦相似度来评估风格对齐的质量。
  • SSIM指数:用于衡量原始图像与风格化图像之间的相似度,较高的SSIM指数表示更好的内容保留。
  • VGG损失:通过比较内容图像和风格化图像在VGG网络不同层上的特征响应来捕捉内容差异,较低的VGG内容损失表明性能更佳。

实验结果与分析

在与现有的最先进技术进行比较后,StyleMamba在CLIP得分、SSIM指数和VGG损失方面均显示出优越性,这表明其在风格转换和内容保留方面的能力较强。

此外,与其他风格转换模型(如Clipstyler和DiffusionCLIP)的训练时间和推理时间相比,StyleMamba在达到相似的风格损失水平时,训练和推理时间都大大缩短。

如下图所示,与其他模型相比,StyleMamba不仅在风格转换和内容保留方面具有优势,在美学上也较为符合人类的期望,具有较高的应用价值。

为了测试StyleMamba的泛化效果,本文在下图中展示了6个实际应用效果。StyleMamba展现出了在一系列自由创作场景下的强势能力。

结论与展望

本文提出了一个创新的文本驱动图像风格迁移框架StyleMamba,通过将条件状态空间模型集成到自编码架构中,显著减少了训练迭代次数、推理时间以及每个epoch所需的训练时间。同时,本文还引入了掩方向损失和二阶方向损失,这些新颖的损失函数对实现与文本描述高度一致的高质量风格转化非常有效。

然而,尽管StyleMamba在风格迁移任务中表现出色,但它在理解文本内容,尤其是不常见文本方面仍有局限性,这表明需要进一步的研究和开发来改进模型。因此,作者也计划探索更多样化的语言输入,以扩展模型处理更广泛视觉风格的能力,并以更精细、可控的方式实现风格迁移。

微信扫码关注该文公众号作者

来源:夕小瑶科技说

相关新闻

库迪咖啡空降洛杉矶!这是要把加州的咖啡价格打下来?!网友:不用回国就能喝到生椰拿铁啦!纽约进入雨季?不出门就能囤粮,还送「环保购物袋」,你得来这!“霉霉”恋爱脑实锤?从东京赶回美国只为了这件事!连男友都好奇:没时差? 她一句话超霸气:时差是种选择...拜登昨天刚说“只有疾病能让我退选”,今天就阳了?!川普:这把稳了!中国股市大反弹可持续吗?高盛、汇丰说了同一句话:历史说别离场!董宇辉“单飞”,狂卖1.6亿!却一句话暴露人生真相:“我的朋友,不超五个人”董事长放狠话:股价不翻倍,不领工资!小作文一出,这家公司连续5天涨停!危机能否彻底化解?90后博士当选的院士头衔花40万就能买?欧洲自然科学院:不会售卖!捏一下,就能拯救打工人的乳腺?网友:999元,是我不配了!为什么专家建议不开心就多唱歌?研究表明:接触音乐方式可以改善工作记忆和执行力!特别是能会改善中晚年的大脑健康刚刚披露!新西兰移民局:这一工签已批准超11万份!哪些签证你能申?看这篇就够!热搜!低价旅游团真相:游客喝粥啃馒头,被逼购物,临时加钱“不给就丢半路”!资深导游:能开单的导游跟会算命一样这啤酒是这里用来做啤酒的?! 拜登演讲说胡话,网友笑疯:就这还和川普争?!最后通牒!苹果官宣:不搬来德州, 就等着被解雇吧?!局长想升官被骗300万元,还对骗子卑躬屈膝,被留置时说:“我马上就要提拔了!是不是有人想整我?我出去就能找人把事情摆平”年轻人卧铺挂帘子被吐槽“不让老人坐”?12306回应!媒体评论:别一言不合就发到网上“道德评判”海关怒怼?探亲老人赴美帮儿媳看娃,遭恐吓:“能养就生,不能养就别生”!十三姐推荐:四年来逢人就夸的抗老精华,30天内不满意不要钱!美国拍板“TikTok不卖就禁”!买家难觅......首席执行官放话:我们哪也不去!2028年洛杉矶奥运会,谁不听话美国就抓谁?国际奥委会慌了,美奥委会主席回应!WADA主席:90%美运动员没遵守国际反兴奋剂条例外国留学生,一毕业就能“自动”获得绿卡!川普提出的“蓝图”,到底靠不靠谱?中英往返航班更新!不到2000人民币就能飞?!回国/来英的速进步行十分钟就能上学?!住得近还便宜的房子在这里!大模型开闭源之争的终极答案:不重要?!
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。