Bendi新闻
>
谷歌发布视频生成大语言模型 VideoPoet

谷歌发布视频生成大语言模型 VideoPoet

作者 | Anthony Alford
译者 | 马可薇
策划 | 丁晓昀  

谷歌研究院近期发布了其在视频生成大语言模型(LLM) VideoPoet 上的研究成果,VideoPoet 在两万亿的文本、音频、图像和视频数据中进行训练。根据人类的评估,其输出结果优于其他模型。

与许多使用扩散模型的图像视频生成 AI 系统不同,VideoPoet 所使用的是经过训练、可处理多种模式的 Transformer 架构,该模型可以通过不同 tokenizers 处理多种输入和输出模式。经过训练的 VideoPoet 可以执行各类零次学习(zero-shot)生成任务,其中包括文本生成视频、图像生成视频、视频补全及视频风格转换。在面对各类基准评估时,VideoPoet 的性能与最先进的基准相比具有“竞争力”,谷歌称:

通过 VideoPoet,我们展示了大语言模型在各类任务中极具竞争力的视频生成质量,尤其是在视频中生成有趣且高质量的动作方面。我们的研究结果表明,大语言模型在视频生成领域大有可为。在未来发展方向上,我们的框架可能支持“任何的”生成任务,例如文本到音频、音频到视频以及视频字幕等扩展生成任务。

虽然 OpenAI 开创性的 DALL-E 模型是使用 Transformer 或大语言模型通过文本提示词生成图像的早期范例,但 Imagen 和 Stable Diffusion 等扩散模型很快便成为了图像生成的标准架构。最近,研究者开始训练扩散模型生成短视频,其中包括 Meta 的 Emu 及 Stability AI 的 Stable Video Diffusion。InfoQ 在 2023 年对此进行过报道。

随着 VideoPoet 的出现,谷歌又回到了 Transformer 的架构,并给出了大语言模型在复用基础设施和优化开发方面的优势。该架构还支持多种模式和任务,这与扩散模型形成鲜明对比,谷歌认为扩散模型需要“架构性变化和适配器模块”才能执行不同任务。

VideoPoet 支持多种模式的关键在于一套 tokenizer,谷歌团队所用的视频 tokenizer 是 MAGVIT-v2,音频 tokenizer 是 SoundStream,文本则是使用了 T5 的预训练文本嵌入。在此基础上,模型使用了纯解码器的自回归 Transformer 模型生成 token 序列,再由 tokenizer 将其转换为音频和视频流。

经过训练的 VideoPoet 可执行八类不同任务:无条件的视频生成、文本生成视频、视频预测、图像生成视频、视频补全、视频风格化、音频生成视频,以及视频生成音频。该模型在 2 万亿的 token 上进行了训练,这些 token 来自 10 亿个图像文本对和 2.7 亿个视频。

研究团队还发现该模型可以将几种操作进行连锁,从而衍生出额外功能。举例来说,VideoPoet 可以使用视频生成图像的功能为单个图像制作动画,再通过风格化功能应用视觉效果。模型还能生成长视频,保持一致的三维结构的同时还可根据文本提示词运镜。

在 Hacker News 上关于 VideoPoet 的讨论中,一名用户写道:

结果让人赞叹不已。不过 prompt 有些奇怪,很多样本都带有“8k”后缀,可能是为了有更逼真的效果?我真的很不喜欢这种让 prompt 更像是神圣咒语的诵读,而不是实际去描述自己想要什么东西的情况。

在 VideoPoet 演示的网站上有该模型输出的几个示例,其中就有这个一分钟视频短片。

查看英文原文:

Google Announces Video Generation LLM VideoPoet(https://www.infoq.com/news/2024/01/google-video-poet/?accessToken)

声明:本文为 InfoQ 翻译,未经许可禁止转载。

今日好文推荐

“印度 CEO 毁了谷歌!”大裁员引发谷歌元老集体怀旧:20 年前为梦想而战,20 年后混口饭吃

中国开源,又一次让人失望了

TikTok 员工加速“出海”,薪资翻倍;老外控诉中国科技巨头抄袭:反正官司打不赢,不费那个劲了;快手上市后首次整体盈利|Q资讯

你当初被谁“忽悠”上了云,现在又在被谁“忽悠”下云?

微信扫码关注该文公众号作者

来源:InfoQ

相关新闻

谷歌发布AI视频生成模型;传微软组建新GenAI团队;蚂蚁成立AI创新部门丨AIGC大事日报AI早知道|谷歌推出文生视频模型Veo;百度发布全球首个支持 L4 级自动驾驶的大模型谷歌7大模型22项AI大招轰炸:70秒视频生成、Gemini安卓合体、200万tokens上下文谷歌发布“Vlogger”模型:单张图片生成10秒视频超越OpenAI,谷歌重磅发布从大模型蒸馏的编码器Gecko贾玲公开瘦身食谱;马云妻子被曝在新加坡购房;报告称养娃到本科毕业平均花费68万元;谷歌发布开源AI大模型Gemma...LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」ChatGPT大范围出现幻觉;传谷歌视频模型负责人加入字节;OpenAI工程师曝工作时间表丨AIGC大事日报OpenAI再压谷歌一头,最强模型GPT-4o免费发布,语言对话媲美人类反应发布屡次截胡?OpenAI与谷歌携新版大模型再度交锋 | 大模型一周大事谷歌发布天气预测AI模型,30秒内能生成22.8天大气模拟结果AI早知道|马斯克Grok大模型开源;荣耀正式发布首款AI PC;苹果谷歌和OpenAI商谈iPhone大模型使用谷歌 Gemma 2 2B 发布火爆,小模型如何撑起大格局?大模型中文内容安全评测发布,幻方DeepSeek-67B模型夺魁,谷歌7B模型表现亮眼拳打Gen-2脚踢Pika,谷歌爆肝7个月祭出AI视频大模型!首提时空架构,时长史诗级延长谷歌重磅:告别RAG,长上下文的大语言模型无需检索增强谷歌发布West-of-N,利用合成数据,显著提升LLM奖励模型质量 | 今日Arxiv最热大模型论文苹果iOS 18将搭载生成式AI;谷歌Bard最新排名超GPT-4;百川发超千亿参数大模型Baichuan 3丨AIGC大事日报谷歌放大招,AI搜索引擎来了,发布最强AI模型!发布会现场:总共提了120次AI、视频模型登场......BB鸭 | iPhone开放NFC;小米汽车回应碰撞视频;谷歌发布Pixel系列手机;郑刚再次炮轰罗永浩多位AI大牛被曝离职创业;「国家队」下场,移动、电信发布大模型;谷歌手动删除并回应新AI搜索失误丨AI情报局11年“AI老兵”破局AMA:破解谷歌BERT大模型,吃AI红利拿offer,真香!多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再「压缩」披萨上涂胶水、建议用户吃石头、毒蘑菇……谷歌又被大模型带沟里
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。