VAST AI让3D成为图文、视频之后的下一种内容形态丨专访宋亚宸

国际科技财经移民娱乐民生时事体育

Bendi新闻

1年前

作者｜James

你决定跳到下一个场景。

你按动了手中控制器的一个按钮，或者滑动了一下屏幕。

一个“虫洞”——逐渐变大的圆形浮现在空气中，直到大小变成你可以钻进去的一个洞，就像有人竖直地举着一个呼啦圈，等着你往里跳。然后你跳进去，落在下一个场景坚实的地面上，或者漂浮在半空中。

AI作图

诸多文学作品都想象过一些将不同时空联系起来的打开方式。在《哆啦A梦》中，这个通道是“任意门”，进入的方式和推开门进入另一个房间别无二致。在《哈利·波特》中，“冥想盆”内场景切换的方式是现在的景色先模糊变成一团雾气，然后雾气散去后进入下一场景。在《瑞克和莫蒂》中，是任意跳转的“传送门”。

“在3D世界中，这就是滑动看下一条。”VAST创始人及CEO宋亚宸类比道。

是的，一次切换将让你从当前的3D场景进入算法推荐的下一个场景——这就是Feed信息流。相比之下，如果是走出来以后回到一个“广场”上，可以看看不同“摊位”，那这显然就像是3D版的瀑布流。

给3D内容打造一个属于这个信息媒介的“打字法”，并基于此开启一个原生的托管、演示、分享和收益平台，这是宋亚宸在采访中反复提到的长期目标。

那么，为什么是他们来做，现在又做到了什么程度？娱乐资本论·视智未来为读者带来对这家专注于3D大模型的技术公司的专访。

为什么要做

首先不妨来回顾一下历史。

总的来说，信息传播的媒介有文字、图片、音频/视频等等。宋亚宸和他的团队一直在设想的未来，就是3D能成为这一串名单中的下一个。

历史上的每种内容形式都有其适合的平台，无论是短文、长文、图片、短视频、中长视频还是音频。根据历史经验，前一个时代的平台领导者，往往不能在下一个时代中保持主导平台地位。

3D内容，无论是静态的世界场景，还是场景中发生的动态人物动作、戏剧、游戏等，都是全新的内容形式，因此必然需要一个原生的3D内容平台。

在信息爆炸的当代社会，平台的重要性被提升到前所未有的高度。没有平台的时代，只有少数人“有钱有闲”可以创作或消费内容，内容品类也十分单一。直到出现大众级别的创作者工具——电脑打字和拼音输入提升了文本写作速度；手机摄像头提升了图片和视频拍摄的效率；“剪映”们提升了剪辑效率……这才让广泛的人民大众加入了创作行列，从而让内容供给出现爆炸式的增加，同时诞生了新的内容范式和内容品类。

因为创作门槛极低，一旦有“科目三”这样的内容“爆款”，就会吸引更多创作者去不断翻拍，使得内容形式快速进化。而如果没有抖音、B站这种类似的平台方，给创作者提供托管、演示、分享、交流的基础，上面这一切都不会发生。

在3D内容方面，目前即使有人制作了一个精彩的3D模型或场景，除了在爱好者社区直接交换源文件之外，还没有直观且便捷的方式来发布和分享这些内容，无法让更多人看到。作为类比，早期的视频分享服务也是交换文件的，直到P2P时代都是如此。不过，如今的视频网站、App和拍摄分享过程中，普通人用手机能全部完成操作，不需要再了解文件的概念。

由于设备和内容限制，人们往往难以直观地了解3D内容的成品长什么样子，以及为什么这东西比现在已经无限供给的短视频吸引人。宋亚宸认为，一旦合适的平台建立起来，人们自然会知道它应该是怎样的。

比如说，新疆的美景风光目前可以用视频vlog呈现。在重建的3D场景中，你可以不做任何操作而跟着“游览车”一路前行，这类似于看vlog；而只要你愿意，你可以暂停这辆车的行驶，然后跳下车在某个地方仔细观赏或者自行探索路线。

宋亚宸表示，从历史上看，内容平台有三个作用：降低发行门槛、创作门槛和体验门槛。

·在发行门槛方面，平台将输出格式标准化，并且通过热门内容“打样”，让创作者清楚消费者想要什么，知道如何表达能被更多人欣赏，这样他们就可以放心地创作。

·在创作门槛方面，降低创作难度的意义，就像汉字输入法对于创作文字内容的意义一样不言自明。3D创作也要有自己的“打字法”。

·在体验门槛方面，3D平台必须兼容当前的屏幕设备，和日后可能会出现的VR眼镜或其它设备。宋亚宸认为，现在包括短视频在内各种媒体形式的超量供给，使得人们在消费内容时逐渐缺乏耐心。不过，3D环境带来的新感受可能会让单条内容消费的平均时长有所增加。已经熟悉玩传统屏幕呈现的3D游戏的用户可能会更快适应3D平台的操作。

只有在有了合适的平台之后，内容才能吸引各种人参与创作，接下来才会出现3A级大作的产生。对不玩游戏的人来说，“3A大作”有一个非常简单的解释：“很多时间（a lot of time），很多资源（a lot of resources），很多钱（a lot of money）”。宋亚宸说，“也可以粗暴地概括为：1亿美金成本、100人、三年时间。”

利益的驱动将使得更多人——无论他们处于什么专业水准——都会参与到内容创作中。因此，把这个平台的未来景象尽可能地描绘出来，其重要性就在于此。

为什么是他们来做

宋亚宸1997年出生，美国读了8年书，2019年回国之后就加入了商汤科技。

2019年商汤就在做AIGC 3D，2021年正式成立了AI游戏事业部。不过总体上，当时这些工作与纯人工相比，能节省的工程量有限。2021年6月份，宋亚宸参与创立了某独角兽AI公司。

他说，自己一开始没有想过自己创业，但是他比较喜欢接触C端产品，包括动画IP和游戏。在工作的过程里接触到了很多对3D内容以及AIGC有丰富经验和感触的朋友，大家对3D内容的想象和愿景出奇地一致。当所有人看见了同一个未来之后，好像创业就变成了一件水到渠成的事情，VAST就出发了。

VAST希望自己能做出3D世界的“打字法”，这要求算法团队向“通用”迈进。

VAST的算法团队认为，应该改变业界传统意义上将3D生成和2D生成截然分开的思维，在3D生成中借鉴文生图的一些成熟思路。他们将3D视为多个视角的图片或视频来处理，这样就可以用其它来源的2D多视角图片和视频数据，来加速3D生成的学习过程。他们还想让训练3D生成模型的过程，和现有的图形处理方法兼容。这涉及到使用一种统一的模型来一并处理2D和3D数据，让这种模型更通用而且更可扩展。

在这种“多模态统一路线”下，VAST目前发布的通用3D大模型Tripo，能够在8秒内生成一个带有贴图的3D网格（Mesh），“网格”是在Blender、Unity等工具中显示3D物体的基本图形元素，也就是一个“物品”。VAST相信，他们可以对现有的高质量数据集做更深入的利用，并且不断更新算法，使得生成的3D资产在质量上超越人工建模。

VAST AI招聘的风格也是一样的“不走寻常路”。宋亚宸的思路并不是刷简历的学历指标，而是从一开始去找行业内最核心的论文，然后把这些论文的一作、二作、三作找到，每天和他们聊公司业务规划和行业进展。宋亚宸自己每天前期花80-90%的时间在招人上，而且“只要最好的人”，因为“做更难的事，需要花最大的精力找同路的人。”

因为创业团队早期没有露出，为了招聘到最顶尖的人才，去年8月份他争取前往图形学顶会SIGGRAPH做了主题演讲。由于公司刚成立，缺乏相关证明，他们委托朋友写了很多的推荐信和证明文件，而且经过了多轮面试，最终可以和IBM，英伟达，索尼等的高管同台，在五十周年的主会场上发表主题演讲。他讲的内容深入浅出，为在场听众提供了比较陌生和新奇的视角。

团队目前有五十多名员工，超过90%为研发人员，主要来自全球顶尖企业和科研院校。公司在北京的办公地点在清华隔壁的五道口，那里名为“华清嘉园”的小区是如今叱咤风云的诸多互联网巨头的摇篮。

做得怎么样了

宋亚宸向我们展示了通用3D大模型Tripo的WebApp版本。当在文本框中输入提示词时，网站会自动检索已生成的同类成品。这意味着如果打字的时候发现别人已经生成了所需内容，可以借鉴和参考其提示词再次生成。

我们尝试生成了一个人物形象和一把宝剑。尽管生成的人物全身像的面部表现还有待提升，其身体线条，以及宝剑等物品的形态都相当不错，上面的纹理也能自动贴合，精度较高。此外，生成的内容可以直接导出到常用的3D设计工具中。宋亚宸说，在Tripo近期将进行的更新之后，生成质量和速度还会继续改善。

产品发布后，在相关社区引发了二次创作的热情。有早期社区用户利用Tripo的文本生成3D的API，创建了一个实验性游戏Tripo Go。这是一款把AIGC 3D技术与传统的宝可梦对战玩法结合的小游戏，并且已经在巴西和韩国有了不少玩家。这款游戏的开发者Allen说，游戏的自然分享率是0.7——意味着10个玩到游戏的人里面有7个会把它再分享给其它朋友。

据开发者透露，通过调用Tripo API，两个人仅仅两周时间就完成了大部分开发工作。开发者在Reddit分享了自己的作品后一天就涌入数千用户，其后在AI用户圈子中持续发酵，甚至有韩国头部Tiktok主播开始对这款AI小游戏进行直播，成功破圈。

玩家可以用Prompt（提示词）生成拥有战斗能力的3D怪兽（其实也可以是人，或者一个物品），并与其他玩家的怪兽匹配对战（方式是掷骰子）；通过累计胜利，可以使自己的3D怪兽不断进化，“吃掉”对手身上的一部分特征。该进化的逻辑是获取对手的提示词，并把它整合到自己的提示词中，重新生成新的3D怪兽。

Tripo Go 用提示词的方式重新发明了“进化”这种传统游戏的体验。即使最终结果有的挺“魔性”，也让人对这种简单的玩法乐此不疲。我们找到了一条玩家视频：

上面说的这些与我们刚才讨论的“虫洞”式信息流平台有什么关系？显然，这是所有人在一同探索“下一个抖音”里面将会承载什么内容。

就像历史上的平台冷启动一样，平台刚刚呈现在人们眼前时提供的初始内容，往往是由专业人士和普通人共建的。

在海外社交媒体上，发布不到20天，Tripo的生态开发者就已经用AI生成的3D模型在引擎里做JRPG3D、AR等等各种实验性尝试，这是全新内容社区的雏形。

在VAST的规划中，3D内容范式的“叙事”能力是非常重要的一环。人们当然可以选择在美轮美奂的场景内驻足流连，但如果一个沉浸式的“剧本杀”、“演唱会”、“吃鸡”也发生在这个环境里，将会发生完全不一样的化学反应。

与未来3D体验关联最高的现有媒介形态无疑是游戏。作为“第九艺术”，游戏在内容和剧情上的体验升级有了《使命召唤4：现代战争》、《艾尔登法环》、《博德之门3》等佳作案例佐证，大型游戏内含的设定、台词等文本体量可能丝毫不亚于一本超长篇小说。甚至是今年火出圈的《笨蛋，我被美女包围了》也在一定程度上说明了“剧情为王”的设计原则。

宋亚宸说，VAST认为在3D剧情内容领域，AI完全可以大显身手。不仅是游戏业界已经在积极尝试的AI NPC，包括场景、物体和地图，最终什么都可以用AI搞定，“千人千面”的游戏界面也不是没可能。例如社区用户贡献的JRPG案例，综合运用了MidJourney、Tripo AI生成游戏资产，Marigold将图片转化为场景，Mixamo做出人物动作，最后用开源的Godot Engine整合到一起。所有工具都是现成的——但可能还需要再自动化一点。

在宋亚宸和娱乐资本论·视智未来的讨论中，还提到一个有趣的可能性：随着可靠性和逼真程度的提高，可以提供一个“3D版横店”即虚拟拍摄基地，用于动画管线制作流程中，早期概念预览片段制作、分镜示意的生成、中远景3D美术资产和场景生成等。即使有多家同类产品可以选择，VAST目前的并发和渲染等技术能力，也将成为电影人或短视频拍摄者选择的依据。

最后，通过“虫洞”切换的转场方式是不是应该注册一个专利呢？在iPhone时代“下拉刷新”这种特有的互动形式开发者就这么做了，并且在技术发展的历史书上留下了自己的名字。

宋亚宸说，他目前还没有想的这么深。他们在许多方面会选择与开源社区互动合作，所以即使最终不是由他们实现，也是“功成不必在我”。他和同事们怀着强烈的理想信念工作，期待人们最终可以成功地将3D内容视为继图文和短视频之后的下一代内容形态。

（本文呈现的谈话内容仅反映受访者的个人意见）

微信扫码关注该文公众号作者

来源：娱乐资本论

VAST AI让3D成为图文、视频之后的下一种内容形态丨专访宋亚宸

为什么要做

相关新闻