CVPR 2024 | 闻声识人黑科技！从音频中想象出说话人脸，FaceChain团队出品

9月前

本文提出了一个新的说话人脸生成任务，即直接从音频中想象出符合音频特征的多样化动态说话人脸，而常规的该任务需要给定一张参考人脸。具体来说，该任务涉及到两个核心的挑战，首先如何从音频中解耦出说话人的身份（性别、年龄等语义信息以及脸型等结构信息）、说话内容以及说话人传递的情绪，其次是如何根据这些信息生成多样化的符合条件的视频，同时保持视频内的一致性。

为了解决上述问题，我们首先挖掘了三个人脸相关要素之间的联系，设计了一个渐进式音频解耦模块，以此降低解耦难度，并且提高了各个解耦因子的准确性。

对于第二个挑战，我们基于 Latent DIffusion Models（LDMs）提出了一个可控一致帧生成模块，因此继承了 LDMs 的多样化生成能力，并设计了相应模块将音频中的信息准确的表达在生成的动态人脸上，缓解了 LDMs 可控性差的局限。充分的定量和定性实验证明了 FaceChain-ImagineID 可以有效且灵活地实现提出的新任务。

论文题目：

FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio

论文链接：

https://arxiv.org/abs/2403.01901

动机

当人们没有面对面交流时，当听到对方的声音时，往往会脑补出相应的画面，对方是一个怎么样的人，在说什么话，说话的情绪怎么样，我们将这个现实场景抽象为 Listening and Imagining。

为了实现这个新的任务，直接使用现有技术有以下两个问题：一个是如何从复杂的音频中解耦出人脸相关的各个因子。

我们首先分析了音频和人脸之间的天然联系。明显的下巴和突出的眉脊通常伴随着低沉的声音，而女性和儿童的音调通常更高；说话内容和局部的嘴唇运动有关系；说话情绪和人脸的全局运动有关系。目前的研究要么只关注了说话内容和情绪，要么只关注了身份信息，并没有方法能够准确地从音频中解耦以上三个特征。

另一个仅仅用一个网络既能实现视频间的多样化，又能保证视频内的一致性。人的想象力是无穷的，同一段音频我们可以想象出很多符合条件的说话人视频，而视频内又是连贯。

其中一个方式是将 LDMs 和 SadTalker 等主流说话人生成进行结合，另一个是借助 text-to-video 框架，但是前者涉及到两个独立的模型，往往不能达到最优的效果，而后者很难实现完全的可控，并且这些方法都没有考虑音频信息。所以，一个新的框架来适配这个任务显得尤为重要。

方法

两个模块的主图如下：

渐进式音频解耦模块：该模块使用 3DMM 作为先验，并采用渐进式的方式逐步解耦每一个因子。我们设置身份，内容，以及情绪作为解耦顺序，其内部的逻辑在于身份相对独立，内容仅仅和嘴巴运动相关，情绪和全局面部运动相关，遵循了简单到复杂，局部到整体的逻辑。

具体的，我们先从身份编码器中编码身份语义，并预测人脸结构相关的形状系数。接下来，我们将身份编码冻结，引入可训练的内容编解码器，其中融合了第一阶段输出的形状系数，预测得到表情无关的仅仅和嘴巴运动相关的系数。

最后，将身份和内容编码器冻结，引入新的可训练的情绪编解码器，其中融合了前面两个阶段输出的身份和内容特征，预测完整的表情系数，同时提供解耦的情绪表征。

可控一致帧生成模块：为了满足多样化的生成，LDMs 是一个很好的结构。但是作为交换，它在可控生成方面相对较弱。

想要不引入两个离线模块来实现多样且一致的说话人脸生成，我们需要解决两个问题，一个是在不牺牲多样化生成的基础上，即冻结 LDMs，怎么保证生成的视频内容和给定的条件对齐，第二个是怎么实现帧间的平滑过度，实现高度的时序平滑。针对第一个问题，我们设计了以下三个模块：

Textual Inversion Adapter：该模块负责将语音中推理得到的身份和情绪语义特征，它的核心是 inversion 技术，其将输入的语义特征映射到 CLIP 域的 word tokens，两者合并后输入到 CLIP 文本编码器得到最终的表征，该表证通过 cross attention 的方式注入到 UNet 主网络。

Spatial Conditional Adapter：该模块负责将显式的空间条件注入到主网络，它的核心借鉴了 T2I-Adapter。首先 3D Mesh 包含了音频对齐的人脸结构信息，即脸型，嘴唇运动以及表情风格，另外随机采样一张同源的参考图片提供人脸的外观以及背景。

上述两个条件对常规方法已经足够了，但是对于冻结的 LDMs，很难学习很复杂的运动。因此我们进一步引入了嘴巴区域掩盖的相邻帧来提供运动信息，从而降低了形变的学习难度，掩盖嘴巴的目的是防止网络走捷径。

Masked-guided Blending Adapter：该模块负责保证生成视频的背景一致性，它主要作用在 VAE 中。具体的，我们将 VAE decoder 的人脸区域特征和 VAE encoder 的背景区域特征进行融合，由膨胀的 mask 作为引导。我们只在 512 分辨率上进行该操作，此时上线了最优的背景一致以及融合边缘的和谐。

以上阐述了设计的可控一致帧生成模块包含了变化的以及不变的生成能力，我们进一步的将其和自回归长视频生成机制 Autoregressive Inference 进行结合。如下算法图所示，对于第一帧生成，我们将可控一致帧生成模块为变化的模式，即只接收从音频中推理得到的身份语义和身份结构。

对于接下来的帧，我们切换为不变的模式，进一步的将参考人脸、相邻帧以及背景图融入进来，从而实现一致的长视频生成。其中参考人脸固定为第一帧，背景图也是从第一帧中提取的。

实验

3.1 与SOTA相比

我们和 SOTA 方法进行定性和定量比较。具体的，首先和最近的 audio-to-face 方法 CMP，如下图所示，我们的结果有更准确的几何结构，包括脸型，嘴唇运动，情绪风格，以及更真实的纹理。

其次和主流的说话人生成方法 Wav2Lip，PC-AVS，EAMM，以及 SadTalker，我们的方法也表达出了更准确的表情、更好的音画一致性以及更高的视频质量。

对应的定量实验见下表：

3.2 分析性实验

如下图所示，为了验证人脸各个元素的解耦性，我们采样了两张人脸，并且将两者对应的说话内容，身份语义以及情绪风格进行交换，可以看到我们的方法可以改变期望改变的因子而保持其他的因子不变

进一步的，我们做了定性实验来证明身份解耦的合理性。我们随机采样了四个音频，其中涵盖不同的性别和年龄，并且根据身份语义检索数据集中最相近的几个视频，如下图所示，检索得到的视频和查询的视频有接近的性别和年龄。为了验证情绪解耦的效果，我们可视化了情绪语义的 t-sne 图，可以看到不同的情绪之间远离，而同一个情绪聚集在特定区域。