Bendi新闻
>
重塑3D生成核心理论:VAST、港大、清华用「零」训练数据生成了3D模型

重塑3D生成核心理论:VAST、港大、清华用「零」训练数据生成了3D模型

4月前

机器之心专栏

机器之心编辑部

AI 生成 3D 模型最难的一关,终于被搞定了。

无需任何训练数据,只需对着模型描述一句话,如「一个做作业的香蕉人」:


或是「一只戴着 VR 眼镜的猫」:


就能生成符合描述的带有高质量纹理贴图的 3D 场景。不仅如此,还能对已有的 3D 模型进行精细化贴图。


这是港大与清华大学联合 3D 生成明星公司 VAST AI 研发的一种新方法,它能够从复杂的文本描述中,直接生成富有想象力的高质量 3D 模型。


目前,这项研究成果已被人工智能顶级会议 ICLR 2024 收录,代码也已经开源。对这项研究感兴趣的小伙伴,可以戳下方项目主页和论文地址查看

  • 论文地址:https://arxiv.org/abs/2310.19415
  • 项目地址:https://xinyu-andy.github.io/Classifier-Score-Distillation
  • 代码地址:https://github.com/CVMI-Lab/Classifier-Score-Distillation
  • 论文标题:Text-to-3D with Classifier Score Distillation

所以它究竟是如何做到的?了解新方法是什么之前,我们先来了解目前已有的方法存在什么问题。

传统生成模型面临的困境

在交互式游戏、电影艺术、增强 / 虚拟现实以及仿真技术等多个应用场景中,高质量的三维资产创建一直是一个重要且具有挑战性的问题。

目前大多数生成模型都依赖于本领域的大量高质量数据做训练,但在 3D 领域,这样的数据集非常匮乏。这导致目前基于 3D 数据训练的 3D 生成模型的效果还无法复刻图像领域的成功。

基于 2D 先验的 3D 生成方法

为了解决这一问题,Google 的 Dream Fusion 首次提出 Score Distillation Sampling(SDS)的方法,证明了可以通过预训练的二维扩散模型生成高质量和复杂的三维结果。这一范式的优势在于无需任何 3D 数据预训练即可生成 3D 模型,这一架构也一直被研究者们和后续工作所沿用,例如 Nvidia 的 Magic3D 等。其核心理论在于通过激励其渲染图像移向文本条件下的高概率密度区域,来反向生成 3d 场景。

尽管基于 SDS 的方法取得了令人瞩目的成果,然而,本文的研究者们发现,基于 SDS 的方法在实际实现中总是与理论出现一些差距,主要是因为普遍依赖于 Classifier-Free Guidance (CFG)。

在使用 CFG 时,推动优化的梯度实际上包含两个部分:一是数据密度的梯度,二是后验函数的梯度。其中前者对应于 SDS 理论中的关键部分,而后者仅仅是在实验过程中才加入的辅助手段。

分类器分数蒸馏:重塑 3D 生成的关键所在

这篇论文的核心贡献,在于重新评估了 SDS 中 CFG 的角色,发现 CFG 不仅仅是辅助手段,恰恰相反,它才是文本到三维生成中的关键驱动。由于这一部分可以被解释为一个隐式的分类模型,研究者们将这一新范式命名为分类器分数蒸馏(Classifier Score Distillation, CSD)

这一发现从根本上改变了我们对基于分数蒸馏成功的文本到三维生成机制的理解。具体而言,其有效性来自于从隐式分类器中提炼知识,而不是依赖于生成先验。

CSD 的引入使得我们能够重新审视现有技术设计选择。例如,研究者们展示了负面提示可以被视为负分类器分数,从而制定了一个渐进式的负分类器分数优化策略,这增强了生成质量,同时保持了与提示的结果忠实度。

此外,研究还揭示了利用分类器分数进行高效的基于文本驱动的三维编辑的可能性,以及将变分分数蒸馏技术 (Variational Score Distillation) 视为一种自适应性的负分类器分数优化形式。

实验效果

CSD 不仅在理论上对文本到三维生成领域提供了新的视角,而且在实际应用中也表现出优越的性能。

在主要的 3D 生成任务上的实验结果显示,在文本对齐和视觉质量方面,该方法相较于 Dream Fusion、Magic3D、Fantasia3D 等现有技术有显著提升,生成的纹理也真实丰富。

在速度上,CSD 在单个 A800 GPU 上只需 1 小时即可完成任务,而能达到同样视觉效果的 Prolific Dreamer 方法则需要长达 8 小时。这一显著的速度优势,加上其出色的生成质量,证明了 CSD 技术的高效性和实用性。

此外,定量评估中采用的 CLIP R-Precision 指标进一步证实了 CSD 的优越性。用户研究也显示 59.4% 的参与者更倾向于选择 CSD 生成的结果。


实验部分还对比了 CSD 在纹理生成这一任务上的能力,与多个方法进行比较,实验结果显示无论从效果还是用户研究中都优于其他方法。


此外,研究者们还展示了如何利用 CSD 对现有的 3D 场景进行编辑,如下图所示,你可以使用 CSD 将一个香蕉人编辑为一个黄瓜人,将模特身上的苔藓编辑为鲜花,而不损失其他部分。


总而言之,CSD 从理论出发,重新思考了目前 3D 生成的关键所在,重塑优化目标,最终在多个任务上显示出其优越性与强大的潜力。通过对这一新范式的深入探索和应用,我们能够更有效地从文本描述中生成高质量、高精度的三维内容,这对于三维内容创造领域的未来发展具有深远的影响。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

来源:机器之心

相关新闻

巧解「数据稀缺」问题!清华开源GPD:用扩散模型生成神经网络参数|ICLR 2024Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放无需3D数据也能训练,港科&港中文联手华为推出3D自动驾驶场景生成模型埃森哲全球副总裁、大中华区主席朱虹:生成式AI助力企业重塑Sora场景转「3D资产」!浙大CAD&CG全重实验室提出文本转3D新SOTA:多功能、可拓展ICML 2024 | 大语言模型预训练新前沿:「最佳适配打包」重塑文档处理标准商汤进入2.0时代:“日日新”大模型驱动生成式AI业务收入率先突破10亿哪里要动点哪里!腾讯联合清华、港科大推出全新图生视频大模型清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!谷歌7大模型22项AI大招轰炸:70秒视频生成、Gemini安卓合体、200万tokens上下文“我们坚持开源!”阿里云发布“地表最强”中文大模型:半年一迭代、性能翻倍?苹果一次性开源了8个大模型! 包含模型权重、训练日志和设置,OpenELM全面开源从“百模”到“千体”:大模型智能体的竞争格局、商业模式和技术挑战一周重磅日程:美国GDP、PCE数据,“超级央行周”,LPR会降息吗?美国「开源 AI 大模型」出口限制法案:43票赞成、3票反对!第一轮通过!大佬消失,大厂反思:“富人”排队消失、阿里京东“动刀”、余承东不敢开直播、大模型开启0元购、理想咽不下纯电这碗饭浪潮信息“元脑”全面升级,定制算力、算法、数据工具,帮企业一键召唤“大模型”宝尊创始人、宝尊集团董事长兼CEO仇文彬:“新质”会带来品牌重塑3 个月砸 1000 万美元肝出“最强”大模型?黑马 Databricks:我们完虐 Grok、Llama,还更开放3个月砸1000万美元肝出“最强”大模型?黑马Databricks:我们完虐Grok、Llama,还更开放大模型又开“卷”!万亿参数闭源模型、四千亿开源模型来了揭秘Sora:用大语言模型的方法理解视频,实现了对物理世界的“涌现”中国生成式AI大会再揭晓15位嘉宾!大模型及应用技术大咖、算力专家和青年学者都来了大模型推理速度飙升3.6倍,「美杜莎」论文来了,贾扬清:最优雅加速推理方案之一
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。