StyleMamba:图片风格不满意?一句话就能调!
作者 | Axe_越
你与哈利波特的距离,只剩一个StyleMamba!
“我想,把我的图变成朦胧马赛克”
“我想,我的画能不能变成美美的莫奈风格”
“我想,我刚刚拍的自拍能不能加上个摄魂怪滤镜(???)”
“...”
如今,这些堪比“哈利波特世界”魔咒的炫酷效果,正在AI界逐步成为现实
图片不喜欢?想要换一种风格? —— 说出你的想法,立马就能实现
论文标题:
StyleMamba - State Space Model for Efficient Text-driven Image Style Transfer
论文链接:
https://arxiv.org/pdf/2405.05027.pdf
动机
在计算机视觉和自然语言处理的交叉领域,文本驱动的图像风格转换技术近年来取得了显著的进展。与传统的图像驱动风格转换不同,文本驱动风格转换通过文本描述来指导图像的风格变换。这种方式不仅增强了灵活性,还提高了可解释性,因为文本提供了一种比具体参考图像更抽象、语义更丰富的风格或属性表达。这使得用户能够表达复杂的艺术概念和情感,而这是单独通过示例图像所不能传达的。
图像驱动风格转换
文本驱动风格转换
文本驱动的风格转换技术,如Clipstyler、DiffusionCLIP和TxST等,展示了文本在视觉多样性方面的巨大潜力。这些方法的核心思想是对齐文本和图像嵌入,使得风格化图像能够忠实地反映文本。然而,这些方法需要考虑文本描述的细微差别和视觉风格的一致性。更重要的是,它们需要数百次训练迭代和大量的GPU资源,这对实际应用来说效率很低。
为解决这两个问题,本文提出了StyleMamba。
方法
StyleMamba框架
自动编码器(Auto Encoder):用于编码内容图像并重构风格化图像。考虑到在编码内容图像到丰富且压缩的隐空间方面的出色能力,以及对重要特征的保留能力,这里采用经过预训练的来自稳定扩散模型(Stable Diffusion Model)的变分自动编码器(VAE),从而实现准确的风格重构。 风格融合模块(Style Fusion Module):这一模块通过结合自适应层规范化(Adaptive Layer Norm,AdaLN)和Mamba过程,有效地将文本风格特征与内容图像特征结合起来。由于只关注相关特征,Mamba的选择性过程加速了风格转移,从而加快了训练和推理速度。 SigLIP模块:SigLIP模块的引入,是为了增强风格融合过程。由于其丰富的语义编码能力,SigLIP在零样本分类准确率上要更优于CLIP,能更好地概括未见过的图像类别。
简单来说,在StyleMamba的操作流程中,输入的内容图像首先被转换为隐向量,而风格文本则被转换为嵌入,然后将他们在风格融合模块中融合,得到新的特征图。在文本到图像风格损失的指导下,解码器将解码成风格化图像。
损失函数
在文本驱动的图像风格转换领域,损失函数的设计是提升模型性能的关键。StyleMamba框架中引入了几种创新的损失函数,旨在更精确地对齐文本描述与图像风格,同时加速模型的训练过程。
全局方向损失(Global directional loss):全局方向损失是StyleMamba的核心,它通过计算文本和图像特征的方向向量之间的余弦相似度,确保风格化过程与文本描述保持一致。这种损失函数的设计帮助模型更好地捕捉到文本表达的目标风格。
掩方向损失(Masked directional loss):掩方向损失是对传统方向损失的扩展,它通过在图像的随机区域应用掩码,强化了模型对风格特征的学习。这种方法不仅提高了风格转换的一致性,还通过自监督的方式加快了重建过程,使模型在部分可见的风格特征下也能保持高度的风格保真度。
二阶方向损失(Second-order directional loss):二阶方向损失是一个创新的设计,用于加速模型对风格化方向的调整。通过考虑连续迭代中风格化图像的变化,这种损失函数确保了向目标视觉风格的快速且连贯的过渡。它通过计算连续迭代期间图像特征差的平方范数,并通过动态调整项来加权,从而实现快速优化。
上图展示了二阶方向损失()如何在风格化的方向上进行快速调整。值得注意的是,它促进了精细化风格转变,确保了向目标视觉风格的快速连贯过渡。
这些损失函数的组合使用,不仅加快了模型的训练速度,还在风格转换的精确度和内容保持方面表现出色。通过这些创新的损失函数设计,StyleMamba能够在较少的训练迭代中,实现复杂风格的快速且高保真的转换,展示了其在艺术创作和实际应用中的巨大潜力。
实验
实验设置与评估指标
为评估StyleMamba的性能,本文使用了两个不同的数据集:COCO和WikiArt。这两个数据集在训练阶段均未被使用,以评估模型在捕捉和渲染复杂艺术风格方面的有效性。
这里采用了三个主要的评估指标来衡量模型的性能:
CLIP得分:通过计算文本和图像特征之间的余弦相似度来评估风格对齐的质量。 SSIM指数:用于衡量原始图像与风格化图像之间的相似度,较高的SSIM指数表示更好的内容保留。 VGG损失:通过比较内容图像和风格化图像在VGG网络不同层上的特征响应来捕捉内容差异,较低的VGG内容损失表明性能更佳。
实验结果与分析
在与现有的最先进技术进行比较后,StyleMamba在CLIP得分、SSIM指数和VGG损失方面均显示出优越性,这表明其在风格转换和内容保留方面的能力较强。
此外,与其他风格转换模型(如Clipstyler和DiffusionCLIP)的训练时间和推理时间相比,StyleMamba在达到相似的风格损失水平时,训练和推理时间都大大缩短。
如下图所示,与其他模型相比,StyleMamba不仅在风格转换和内容保留方面具有优势,在美学上也较为符合人类的期望,具有较高的应用价值。
为了测试StyleMamba的泛化效果,本文在下图中展示了6个实际应用效果。StyleMamba展现出了在一系列自由创作场景下的强势能力。
结论与展望
本文提出了一个创新的文本驱动图像风格迁移框架StyleMamba,通过将条件状态空间模型集成到自编码架构中,显著减少了训练迭代次数、推理时间以及每个epoch所需的训练时间。同时,本文还引入了掩方向损失和二阶方向损失,这些新颖的损失函数对实现与文本描述高度一致的高质量风格转化非常有效。
然而,尽管StyleMamba在风格迁移任务中表现出色,但它在理解文本内容,尤其是不常见文本方面仍有局限性,这表明需要进一步的研究和开发来改进模型。因此,作者也计划探索更多样化的语言输入,以扩展模型处理更广泛视觉风格的能力,并以更精细、可控的方式实现风格迁移。
微信扫码关注该文公众号作者