谷歌发布视频生成大语言模型 VideoPoet

国际科技财经移民娱乐民生时事体育

Bendi新闻

科技

互联网+

1年前

作者 | Anthony Alford

译者 | 马可薇

策划 | 丁晓昀

谷歌研究院近期发布了其在视频生成大语言模型（LLM） VideoPoet 上的研究成果，VideoPoet 在两万亿的文本、音频、图像和视频数据中进行训练。根据人类的评估，其输出结果优于其他模型。

与许多使用扩散模型的图像视频生成 AI 系统不同，VideoPoet 所使用的是经过训练、可处理多种模式的 Transformer 架构，该模型可以通过不同 tokenizers 处理多种输入和输出模式。经过训练的 VideoPoet 可以执行各类零次学习（zero-shot）生成任务，其中包括文本生成视频、图像生成视频、视频补全及视频风格转换。在面对各类基准评估时，VideoPoet 的性能与最先进的基准相比具有“竞争力”，谷歌称：

通过 VideoPoet，我们展示了大语言模型在各类任务中极具竞争力的视频生成质量，尤其是在视频中生成有趣且高质量的动作方面。我们的研究结果表明，大语言模型在视频生成领域大有可为。在未来发展方向上，我们的框架可能支持“任何的”生成任务，例如文本到音频、音频到视频以及视频字幕等扩展生成任务。

虽然 OpenAI 开创性的 DALL-E 模型是使用 Transformer 或大语言模型通过文本提示词生成图像的早期范例，但 Imagen 和 Stable Diffusion 等扩散模型很快便成为了图像生成的标准架构。最近，研究者开始训练扩散模型生成短视频，其中包括 Meta 的 Emu 及 Stability AI 的 Stable Video Diffusion。InfoQ 在 2023 年对此进行过报道。

随着 VideoPoet 的出现，谷歌又回到了 Transformer 的架构，并给出了大语言模型在复用基础设施和优化开发方面的优势。该架构还支持多种模式和任务，这与扩散模型形成鲜明对比，谷歌认为扩散模型需要“架构性变化和适配器模块”才能执行不同任务。

VideoPoet 支持多种模式的关键在于一套 tokenizer，谷歌团队所用的视频 tokenizer 是 MAGVIT-v2，音频 tokenizer 是 SoundStream，文本则是使用了 T5 的预训练文本嵌入。在此基础上，模型使用了纯解码器的自回归 Transformer 模型生成 token 序列，再由 tokenizer 将其转换为音频和视频流。

经过训练的 VideoPoet 可执行八类不同任务：无条件的视频生成、文本生成视频、视频预测、图像生成视频、视频补全、视频风格化、音频生成视频，以及视频生成音频。该模型在 2 万亿的 token 上进行了训练，这些 token 来自 10 亿个图像文本对和 2.7 亿个视频。

研究团队还发现该模型可以将几种操作进行连锁，从而衍生出额外功能。举例来说，VideoPoet 可以使用视频生成图像的功能为单个图像制作动画，再通过风格化功能应用视觉效果。模型还能生成长视频，保持一致的三维结构的同时还可根据文本提示词运镜。

在 Hacker News 上关于 VideoPoet 的讨论中，一名用户写道：

结果让人赞叹不已。不过 prompt 有些奇怪，很多样本都带有“8k”后缀，可能是为了有更逼真的效果？我真的很不喜欢这种让 prompt 更像是神圣咒语的诵读，而不是实际去描述自己想要什么东西的情况。

在 VideoPoet 演示的网站上有该模型输出的几个示例，其中就有这个一分钟视频短片。

查看英文原文：

Google Announces Video Generation LLM VideoPoet（https://www.infoq.com/news/2024/01/google-video-poet/?accessToken）

声明：本文为 InfoQ 翻译，未经许可禁止转载。

中国开源，又一次让人失望了

TikTok 员工加速“出海”，薪资翻倍；老外控诉中国科技巨头抄袭：反正官司打不赢，不费那个劲了；快手上市后首次整体盈利｜Q资讯

你当初被谁“忽悠”上了云，现在又在被谁“忽悠”下云？

微信扫码关注该文公众号作者

来源：InfoQ

谷歌发布视频生成大语言模型 VideoPoet

相关新闻