字节最新文生视频模型，引发围观！狐狸跳舞超丝滑，效果超Gen-2

科技

内容产业

11月前

夕小瑶科技说原创
作者 | 谢年年、python
扩散模型带动了文生视频领域的发展。Runway、Pika 1.0、Morph、Moon Valley和Stable Video Diffusion model等模型在文生视频界崭露头角。只需文本描述，就能轻松生成视频。让人不禁感叹，世界已经发展成这样了吗?

国内公司也不甘示弱，字节团队最近发布了一个新的多级文生视频框架——MagicVideo-V2，集成了文本到图像(T2I)，图像到视频(I2V)、视频到视频(V2V)和视频帧插值(VFI)模块组成多级端到端视频生成pipeline，能够根据文本描述生成美观且高分辨率的视频，在人工评估中，其性能优于上面提到的一些明星文生视频产品。

论文标题:
MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation

论文链接:
https://arxiv.org/pdf/2401.04468.pdf

先来看看效果到底如何~

更多示例与对比高清视频可在官方发布的链接中找到：
https://magicvideov2.github.io/

模型结构

如图所示，MagicVideo-V2，集成了文本到图像(T2I)，图像到视频(I2V)、视频到视频(V2V)和视频帧插值(VFI)模块。

T2I模块根据文本描述创建了一个1024×1024图像。
I2V模块将此静止图像动画化，生成600×600×32帧序列，并预先使用latent noise prior确保初始帧的连续性。
V2V模块在细化视频内容的同时将这些帧增强到1048×1048分辨率。
最后，插值模块VFI将序列扩展到94帧，得到一个1048×1048分辨率视频，既保证高质量，又具有时间平滑性。

接下来将具体看看每个模块是如何实现的？

文本到图片模块（Text-to-Image）

T2I模块以用户的文本提示作为输入，生成1024 × 1024的图像作为视频生成的参考图像。参考图像有助于阐述视频内容和风格。MagicVideo-V2兼容不同的T2I型号，使用内部开发的基于扩散的MagicVideo-V2中的T2I模型，可以输出高美感的图像。

图像到视频模块（Image-to-Video）

I2V模块建立在Stable Diffusion1.5版本基础上，该版本利用人类反馈来提高模型在视觉质量和内容一致性方面的能力。

I2V模块搭载了参考图像嵌入模块，通过调整外观编码器来提取嵌入信息，并利用交叉注意力机制将其融入模块中。这使得图像提示能够与文本提示有效分离，为图像提供更强大的条件。

此外，作者采用潜在噪声先验策略，为起始噪声潜在值设定布局条件。帧从标准高斯噪声中初始化，均值逐渐向参考图像潜在值偏移。适当的噪声先验技巧使得图像布局得以保留，并提升帧间的时序一致性。

为进一步强化布局和空间条件，作者部署了ControlNet模块，从参考图像中直接提取RGB信息并应用于所有帧。这些技术确保帧与参考图像精准对齐，同时使模型能够生成清晰的运动。

作者还采用了图像-视频联合训练策略来训练I2V模块，将图像视为单帧视频。联合训练利用内部的高质量和美学图像数据集，提高生成视频的帧质量。图像数据集有效地弥补了视频数据集在多样性和数量上的不足。

视频到视频模块（Video-to-Video）

V2V模块与I2V模块设计相似，采用相同的骨干和空间层。其运动模块经过高分辨率视频子集的微调。同时采用图像外观编码器和ControlNet模块，确保视频帧在更高分辨率下生成。参考图像的信息有助于减少结构误差和失败率，同时增强高分辨率下的细节表现。

视频帧插值(VFI)

VFI模块基于GAN的VFI模型训练得到，采用增强型可变形可分离卷积（EDSC）头与VQ-GAN配对，类似于自动编码器模型。为提高稳定性和流畅性，还采用了预先训练的轻量级插值模型。

实验结果

人类评估

为了评估MagicVideo-V2，作者组织了61名评估人员，与最先进的T2V系统进行对比。进行了500次随机比较实验，每次选取MagicVideo-V2和T2V使用相同文本提示生成的视频，评估人员从“好”、“一样”和“坏”中选择，分别代表对MagicVideo-V2的偏好、无偏好和偏好另一个T2V产品。

评估指标包含三类：:1)哪个视频具有更高的帧质量和整体视觉吸引力。2)哪个视频的时间一致性更强，运动范围和运动有效性更好。3)哪个视频结构错误少，或者情况不好。

实验结果如下表所示，从人类视觉感知的角度，MagicVideo-V2明显优于其他产品。