Bendi新闻
>
音频秒生全身虚拟人像,AI完美驱动面部肢体动作!UC伯克利Meta提出Audio2Photoreal
音频秒生全身虚拟人像,AI完美驱动面部肢体动作!UC伯克利Meta提出Audio2Photoreal
9月前
新智元报道
新智元报道
【新智元导读】最近,来自Meta和UC伯克利的研究人员,发布了一种最新的音频到人像模型。操作简单,输出极致逼真。
就在最近,Meta和UC伯克利联合提出了一种全新的虚拟人物形象生成的方法——
直接根据音频生成全身人像,效果不仅逼真,还能模拟出原音频中包含的细节,比如手势、表情、情绪等等。
话不多说,直接上图。
音频到Avatar,一步!
一个新颖、丰富的二元对话数据集,可以进行逼真的重构。
由三部分组成的运动模型:面部运动模型、引导姿势预测器和身体运动模型。
给定音频和预训练唇语回归器的输出,Meta训练一个条件扩散模型来输出面部运动。
对于身体部分,Meta将音频作为输入,并以1fps的速度自回归输出VQ-ed引导姿势。
然后,将音频和引导姿态传递到同一个扩散模型中,以30 fps的速度填充高频率的身体运动。
最后,生成的面部和肢体运动都会传入Meta训练过的人像渲染器,生成逼真的人像。
甩腕表示梳理要点;讲故事时耸肩。
表达「它们的发生肯定是有原因的」时,强调手臂的动作;用手指的动作来表示陈述。
通过手部动作来配合谈话,以及声音的起伏。
提问时手指的动作细节;想问题时头向后仰,做思考状;回答时手向外推。
论文
微信扫码关注该文公众号作者
来源:新智元
相关新闻
CVPR 2024 | 面部+肢体动画,一个框架搞定从音频生成数字人表情与动作Stability AI开源47秒音频生成模型,虫鸣鸟叫、摇滚、鼓点都能生成15 秒音频即可“复制”原声!但OpenAI 担心新语音模型被滥用而限制发行OpenAI 推出 AI 图片检测工具,识别准确率高达 98%,还在研发 AI 音频水印特朗普跻身全球富豪400强;诺和诺德减肥药成本5美元竟卖1000美元;OpenAI语音克隆:只需15秒音频样本|一周国际财经AI早知道|抖音治理AI虚拟人;vivo开放蓝心大模型应用下载;百度推出Comate 2.0CVPR 2024 | 闻声识人黑科技!从音频中想象出说话人脸,FaceChain团队出品2024惠宜美本文书讲座:哈佛名师助你叩开藤校大门!(文字+ 音频)微软「诈骗届」王牌框架,真到可怕!一张照片+音频即可生成数字人吉他摇滚、电子音乐都能搞定,Meta开源音频生成新模型MAGNeT,非自回归7倍提速限时返!大语文音频课,一天一篇,复习、拓展齐搞定AI反诈!Deepfake音视频检测技术亮相CES,准确率超90%开源音频编辑器 Audacity 的 AI 工具来了 | Linux 中国9家AI相关公司获融资;3大科技巨头被曝将面临反垄断调查;Vidu重大更新,生成32秒视频,支持音视频合成丨AI情报局AI早知道|抖音推出AI相机星绘;Meta公司推出LayerSkip技术一张照片+音频=超逼真数字人视频!VASA-1模型拉开「实时交互」大幕AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型 | ICML 2024抖音豆包成年轻人AI顶流!字节跳动大模型家族登场,tokens价格比行业低99%放贷余额近4000亿?抖音紧急回应!东方甄选、TikTok有大动作丨大公司动态阿里音频生成大模型一次发俩还开源!50种语言快速理解+5种语言语音生成,带情感的那种早鸟报|快手将下线音频直播带货;微信输入法上线一键AI问答功能;淘宝成立个性定制一级行业...科技|你有苹果iPhone 7吗?音频门落幕,用户最高可获赔349美金!阿里1688全面接入淘宝,小红书去年转盈,百度将为国行iPhone16提供AI功能,抖音治理伪成功学,这就是今天的其他大新闻!众议员“秒过”最新立法:全美封禁TikTok!美版抖音何去何从?