StyleMamba：图片风格不满意？一句话就能调！

国际科技财经移民娱乐民生时事体育

Bendi新闻

8月前

夕小瑶科技说原创
作者 | Axe_越

你与哈利波特的距离，只剩一个StyleMamba！

“我想，把我的图变成朦胧马赛克”

“我想，我的画能不能变成美美的莫奈风格”

“我想，我刚刚拍的自拍能不能加上个摄魂怪滤镜（？？？）”

“...”

如今，这些堪比“哈利波特世界”魔咒的炫酷效果，正在AI界逐步成为现实

图片不喜欢？想要换一种风格？ —— 说出你的想法，立马就能实现

论文标题:
StyleMamba - State Space Model for Efficient Text-driven Image Style Transfer

论文链接:
https://arxiv.org/pdf/2405.05027.pdf

动机

在计算机视觉和自然语言处理的交叉领域，文本驱动的图像风格转换技术近年来取得了显著的进展。与传统的图像驱动风格转换不同，文本驱动风格转换通过文本描述来指导图像的风格变换。这种方式不仅增强了灵活性，还提高了可解释性，因为文本提供了一种比具体参考图像更抽象、语义更丰富的风格或属性表达。这使得用户能够表达复杂的艺术概念和情感，而这是单独通过示例图像所不能传达的。

图像驱动风格转换

文本驱动风格转换

文本驱动的风格转换技术，如Clipstyler、DiffusionCLIP和TxST等，展示了文本在视觉多样性方面的巨大潜力。这些方法的核心思想是对齐文本和图像嵌入，使得风格化图像能够忠实地反映文本。然而，这些方法需要考虑文本描述的细微差别和视觉风格的一致性。更重要的是，它们需要数百次训练迭代和大量的GPU资源，这对实际应用来说效率很低。

为解决这两个问题，本文提出了StyleMamba。

方法

StyleMamba框架

自动编码器（Auto Encoder）：用于编码内容图像并重构风格化图像。考虑到在编码内容图像到丰富且压缩的隐空间方面的出色能力，以及对重要特征的保留能力，这里采用经过预训练的来自稳定扩散模型（Stable Diffusion Model）的变分自动编码器（VAE），从而实现准确的风格重构。
风格融合模块（Style Fusion Module）：这一模块通过结合自适应层规范化（Adaptive Layer Norm，AdaLN）和Mamba过程，有效地将文本风格特征与内容图像特征结合起来。由于只关注相关特征，Mamba的选择性过程加速了风格转移，从而加快了训练和推理速度。
SigLIP模块：SigLIP模块的引入，是为了增强风格融合过程。由于其丰富的语义编码能力，SigLIP在零样本分类准确率上要更优于CLIP，能更好地概括未见过的图像类别。

简单来说，在StyleMamba的操作流程中，输入的内容图像首先被转换为隐向量，而风格文本则被转换为嵌入，然后将他们在风格融合模块中融合，得到新的特征图。在文本到图像风格损失的指导下，解码器将解码成风格化图像。

损失函数

在文本驱动的图像风格转换领域，损失函数的设计是提升模型性能的关键。StyleMamba框架中引入了几种创新的损失函数，旨在更精确地对齐文本描述与图像风格，同时加速模型的训练过程。

全局方向损失（Global directional loss）：全局方向损失是StyleMamba的核心，它通过计算文本和图像特征的方向向量之间的余弦相似度，确保风格化过程与文本描述保持一致。这种损失函数的设计帮助模型更好地捕捉到文本表达的目标风格。
掩方向损失（Masked directional loss）：掩方向损失是对传统方向损失的扩展，它通过在图像的随机区域应用掩码，强化了模型对风格特征的学习。这种方法不仅提高了风格转换的一致性，还通过自监督的方式加快了重建过程，使模型在部分可见的风格特征下也能保持高度的风格保真度。
二阶方向损失（Second-order directional loss）：二阶方向损失是一个创新的设计，用于加速模型对风格化方向的调整。通过考虑连续迭代中风格化图像的变化，这种损失函数确保了向目标视觉风格的快速且连贯的过渡。它通过计算连续迭代期间图像特征差的平方范数，并通过动态调整项来加权，从而实现快速优化。

上图展示了二阶方向损失（）如何在风格化的方向上进行快速调整。值得注意的是，它促进了精细化风格转变，确保了向目标视觉风格的快速连贯过渡。