谷歌发布视频生成大语言模型 VideoPoet
谷歌研究院近期发布了其在视频生成大语言模型(LLM) VideoPoet 上的研究成果,VideoPoet 在两万亿的文本、音频、图像和视频数据中进行训练。根据人类的评估,其输出结果优于其他模型。
与许多使用扩散模型的图像视频生成 AI 系统不同,VideoPoet 所使用的是经过训练、可处理多种模式的 Transformer 架构,该模型可以通过不同 tokenizers 处理多种输入和输出模式。经过训练的 VideoPoet 可以执行各类零次学习(zero-shot)生成任务,其中包括文本生成视频、图像生成视频、视频补全及视频风格转换。在面对各类基准评估时,VideoPoet 的性能与最先进的基准相比具有“竞争力”,谷歌称:
通过 VideoPoet,我们展示了大语言模型在各类任务中极具竞争力的视频生成质量,尤其是在视频中生成有趣且高质量的动作方面。我们的研究结果表明,大语言模型在视频生成领域大有可为。在未来发展方向上,我们的框架可能支持“任何的”生成任务,例如文本到音频、音频到视频以及视频字幕等扩展生成任务。
虽然 OpenAI 开创性的 DALL-E 模型是使用 Transformer 或大语言模型通过文本提示词生成图像的早期范例,但 Imagen 和 Stable Diffusion 等扩散模型很快便成为了图像生成的标准架构。最近,研究者开始训练扩散模型生成短视频,其中包括 Meta 的 Emu 及 Stability AI 的 Stable Video Diffusion。InfoQ 在 2023 年对此进行过报道。
随着 VideoPoet 的出现,谷歌又回到了 Transformer 的架构,并给出了大语言模型在复用基础设施和优化开发方面的优势。该架构还支持多种模式和任务,这与扩散模型形成鲜明对比,谷歌认为扩散模型需要“架构性变化和适配器模块”才能执行不同任务。
VideoPoet 支持多种模式的关键在于一套 tokenizer,谷歌团队所用的视频 tokenizer 是 MAGVIT-v2,音频 tokenizer 是 SoundStream,文本则是使用了 T5 的预训练文本嵌入。在此基础上,模型使用了纯解码器的自回归 Transformer 模型生成 token 序列,再由 tokenizer 将其转换为音频和视频流。
经过训练的 VideoPoet 可执行八类不同任务:无条件的视频生成、文本生成视频、视频预测、图像生成视频、视频补全、视频风格化、音频生成视频,以及视频生成音频。该模型在 2 万亿的 token 上进行了训练,这些 token 来自 10 亿个图像文本对和 2.7 亿个视频。
研究团队还发现该模型可以将几种操作进行连锁,从而衍生出额外功能。举例来说,VideoPoet 可以使用视频生成图像的功能为单个图像制作动画,再通过风格化功能应用视觉效果。模型还能生成长视频,保持一致的三维结构的同时还可根据文本提示词运镜。
在 Hacker News 上关于 VideoPoet 的讨论中,一名用户写道:
结果让人赞叹不已。不过 prompt 有些奇怪,很多样本都带有“8k”后缀,可能是为了有更逼真的效果?我真的很不喜欢这种让 prompt 更像是神圣咒语的诵读,而不是实际去描述自己想要什么东西的情况。
在 VideoPoet 演示的网站上有该模型输出的几个示例,其中就有这个一分钟视频短片。
查看英文原文:
Google Announces Video Generation LLM VideoPoet(https://www.infoq.com/news/2024/01/google-video-poet/?accessToken)
声明:本文为 InfoQ 翻译,未经许可禁止转载。
“印度 CEO 毁了谷歌!”大裁员引发谷歌元老集体怀旧:20 年前为梦想而战,20 年后混口饭吃
TikTok 员工加速“出海”,薪资翻倍;老外控诉中国科技巨头抄袭:反正官司打不赢,不费那个劲了;快手上市后首次整体盈利|Q资讯
微信扫码关注该文公众号作者