Bendi新闻
>
字节让达芬奇和蒙娜丽莎“隔空吵架”,只需一张图、一段音频、一个情感片段

字节让达芬奇和蒙娜丽莎“隔空吵架”,只需一张图、一段音频、一个情感片段

10月前
允中 发自 凹非寺
量子位 | 公众号 QbitAI

AIGC在视频生成领域展现出非凡的潜力。近期, 字节跳动智能创作团队和得克萨斯大学达拉斯分校又提出了一项名为DREAM-Talk的基于扩散模型框架:接收一段驱动的音频序列、一张给定的人像图片和一个情感风格的例子(一段有情感的讲话面部视频)作为输入,就能生成一段逼真的、嘴唇同步的讲话面部视频,其中包含高质量的情感表达,连画像也能绘声绘色地进行表演,还支持多个语种。

(以下结果包括真实人类图像和由 AIGC 生成的图像。

DREAM-Talk 框架的流程如下:

首先,将音频映射到表情是一个一对多的问题,使得获得动态和真实的表情变得困难。

其次,生成一系列3D脸部表情参数涉及许多问题,如连续性和多样性。为了应对这些挑战,团队提出了基于扩散的模型,用于生成3D面部表情序列。以输入的音频、初始状态和情感风格作为条件,团队利用EmoDiff学习随时间去噪3D表情,使用基于Transformer的架构进行序列建模。初始状态对应于第一帧中的表情,情感风格由随机选择的表情片段定义,独立于输入音频。

从扩散模型获得动态情感表达后,团队观察到扩散网络无意中减少了音频的影响,导致音频和嘴形之间明显的不匹配。这种现象归因于扩散网络生成真实序列的倾向,从而减弱了音频的影响。为了纠正这个问题,团队引入了一个嘴唇同步细化网络,利用相同的音频和情感数据来重新校准并生成细化的嘴部参数。利用条件约束的音频和情感表达,嘴唇细化模型进一步优化口部动作,而不改变情感,之后使用blendshape生成相应的 3D 渲染面部。

最后,团队采用经过微调的Face-Vid2Vid模型生成情感讲话视频。具体来说,团队使用Face-Vid2Vid方法作为基本的神经渲染方法。此外,团队对模型进行了微调处理,使用精心挑选的高分辨率表达性讲话视频,来自TalkHead-1HK数据集,旨在提升表达性和渲染质量。

与最新方法的比较:在前两个比较中,团队分别对MEAD和HDTF数据集进行评估。在第三个比较中,团队使用一个由AIGC生成的面部。团队还将团队的Rig模型结果作为中间表示进行可视化。团队的方法在情感表达、嘴唇同步、身份保持和图像质量方面始终产生显著优越的结果。

多人物情感演示: 支持各种情感表达,如愤怒、快乐、悲伤、惊讶等。

跨越时空的对话演示: 达芬奇主要表现愤怒,而蒙娜丽莎则表现快乐。

多语言演示: 支持情感表情生成,包括中文、日语、法语、德语等。

了解更详细的信息:

Arxiv: https://arxiv.org/abs/2312.13578
Project page: https://magic-research.github.io/dream-talk/

关于字节跳动智能创作团队

智能创作团队是字节跳动AI&多媒体技术中台,覆盖了计算机视觉、音视频编辑、特效处理等技术领域,借助字节跳动丰富的业务场景、基础设施资源和良好的技术协作氛围,实现了前沿算法-工程系统-产品全链路的闭环,旨在以多种形式为公司内部各业务提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。

目前,智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。更多大模型算法相关岗位开放中。

*本文系量子位获授权刊载,观点仅为作者所有。


—  —

量子位 QbitAI

վ'ᴗ' ի 追踪AI技术和产品新动态

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

来源:量子位

相关新闻

LeCun上月球?南开、字节开源StoryDiffusion让多图漫画和长视频更连贯有“病”!阿里、京东、百度、字节齐发声字节、阿里再掀价格战,百度紧跟!大模型卖出“白菜价”OpenAI 取消前员工离职协议“封嘴”条款;字节系多款App被指控抄袭源代码;京东被曝严抓考勤、微信非工作群全部解散|AI周报字节发全员信,调整绩效和激励政策;图森未来宣布退市;华为将在四季度推出「纯版鸿蒙」 | 极客早知道阿里、字节和华为的年终奖【探索】龙年话龙,这些含“龙”字、身形似“龙”的植物你都认识吗→《英雄联盟》回归抖音,字节「以退为进」开启与腾讯的「蜜月期」|焦点分析中山大学和字节发布「视频虚拟试穿」扩散模型VITON-DiT,一键生成换装后视频!LeCun登上月球?南开&字节新作StoryDiffusion:让多图漫画和长视频更连贯国内员工转海外岗!字节跳动扩大海外版图!加拿大、澳洲研发中心筹建中一降再降!消费贷、房贷利率卷进“2字头”字节跳动想造一个“小红书” 种草社区“可颂”卷土重来“给字节卖命两年”,抖音官方回应了今明两年,刚需买房如果不想被坑,牢记这7字:“买旧、买大、不买三”!从“APP工厂”到“AI应用工厂”,字节能找到AI时代的抖音吗?怎样教娃认字更快?语文名师给出这个“窍门”,比报班、识字卡有用多了英伟达跌破 3 万亿美元,「全球第一股」仅当一天;字节否认与博通合作开发 AI 芯片;《三体:大史》2025 年开机|极客早知道AI鲜测 | 又是字节跳动出品的爆款!人人都该用“扣子”建立一个自己的AI应用华为官宣“纯血鸿蒙”;700 多人被起诉,富士通为陈年老 Bug 道歉;字节调整绩效和激励政策鸿蒙OS被提名国家科技进步奖;腾讯字节拆墙和解,抖音直播有望试水“王者荣耀”高盛、字节跳动等500+国内名企2025秋招预测时间表,速领!国内秋招预测表!高盛、字节跳动等500+内名企开岗时间汇总字节、华科发布多语种视觉文本理解新基准,多模态大模型还有很长的路要走
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。