Bendi新闻
>
CVPR 2024 | 文本一键转3D数字人骨骼动画,阿尔伯塔大学提出MoMask框架
CVPR 2024 | 文本一键转3D数字人骨骼动画,阿尔伯塔大学提出MoMask框架
6月前
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]。
论文题目:MoMask: Generative Masked Modeling of 3D Human Motions 论文链接:https://arxiv.org/abs/2312.00063 代码链接:https://github.com/EricGuo5513/momask-codes Huggingface Space 链接:https://huggingface.co/spaces/MeYourHint/MoMask
残差量化模型 (Residual VQ-VAE),将人体动作转换为多层离散的动作标记(Token)。基层(即第一层)的动作标记包含了动作的基本信息,而残差层则对应更细粒度的动作信息。 Masked Transformer:对基层的动作标记进行建模,采用随机比例的随机掩码,并根据文本信息预测被掩码的动作标记,用于生成基层动作标记。 Residual Transformer:对残差层的动作标记进行建模,根据前 j 层的动作标记预测第 j 层的动作标记,以此来建模残差层的动作序列。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
来源:机器之心
相关新闻
一键实景转动画,清华系初创公司全球首发4D骨骼动画框架,还能生成个性化角色CVPR 2024 | 面部+肢体动画,一个框架搞定从音频生成数字人表情与动作CVPR 2024 | 北大提出HoT:高效3D人体姿态估计新框架CVPR 2024|文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRFAAAI 2024 | 广西师范大学提出ODTrack:目标跟踪新框架CVPR 2024 | 通用视觉新突破!UC伯克利提出首个无自然语言的纯视觉大模型东南大学、蚂蚁提出MATEval:多Agent开放式文本评估框架CVPR 2024 | 加快199倍!清华和哈佛提出LangSplat:3D语义高斯泼溅CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoTCVPR 2024 | 无参数无训练也能大幅涨点!港城大等提出全新小样本3D分割模型CVPR 2024 | 浙大提出近似平均方向求解器,快速扩散模型数值采样CVPR 2024 中科院等提出:实时人像视频三维感知重光照方法腾讯:终于补齐了Muse系列数字人开源框架,感谢阿里!西湖大学提出AIGC检测框架,精准识别AI撰写的文稿CVPR 2024 | 谷歌提出OmniGlue:特征匹配新工作CVPR 2024|Adobe提出人像抠图新网络MaGGIeCVPR 2024 | 字节提出视觉基础模型:ViTamin,实现多项SOTA!CVPR 2024 | 南洋理工提出动态人体渲染新范式,高度还原跳舞时飞扬的裙摆CVPR 2024 | 腾讯提出LORS:低秩残差结构,瘦身模型不掉点!CVPR 2024 | 闻声识人黑科技!从音频中想象出说话人脸,FaceChain团队出品CVPR 2024 | 中大哈佛等提出全新训练方法CLoT,探究大模型幽默创新力CVPR 2024 | 港理工联合OPPO提出统一且通用的视频分割大模型CVPR 2024 | 北大&电子科大提出RCBEVDet:毫米波雷达-相机多模态的感知架构CVPR 2024 | 中科大&微软提出:迈向更统一的上下文视觉理解