Bendi新闻
>
VAST AI让3D成为图文、视频之后的下一种内容形态丨专访宋亚宸

VAST AI让3D成为图文、视频之后的下一种内容形态丨专访宋亚宸

10月前
作者|James
你决定跳到下一个场景。
你按动了手中控制器的一个按钮,或者滑动了一下屏幕。
一个“虫洞”——逐渐变大的圆形浮现在空气中,直到大小变成你可以钻进去的一个洞,就像有人竖直地举着一个呼啦圈,等着你往里跳。然后你跳进去,落在下一个场景坚实的地面上,或者漂浮在半空中。
AI作图
诸多文学作品都想象过一些将不同时空联系起来的打开方式。在《哆啦A梦》中,这个通道是“任意门”,进入的方式和推开门进入另一个房间别无二致。在《哈利·波特》中,“冥想盆”内场景切换的方式是现在的景色先模糊变成一团雾气,然后雾气散去后进入下一场景。在《瑞克和莫蒂》中,是任意跳转的“传送门”。
“在3D世界中,这就是滑动看下一条。”VAST创始人及CEO宋亚宸类比道。
是的,一次切换将让你从当前的3D场景进入算法推荐的下一个场景——这就是Feed信息流。相比之下,如果是走出来以后回到一个“广场”上,可以看看不同“摊位”,那这显然就像是3D版的瀑布流。
给3D内容打造一个属于这个信息媒介的“打字法”,并基于此开启一个原生的托管、演示、分享和收益平台,这是宋亚宸在采访中反复提到的长期目标。
那么,为什么是他们来做,现在又做到了什么程度?娱乐资本论·视智未来为读者带来对这家专注于3D大模型的技术公司的专访。

为什么要做

首先不妨来回顾一下历史。
总的来说,信息传播的媒介有文字、图片、音频/视频等等。宋亚宸和他的团队一直在设想的未来,就是3D能成为这一串名单中的下一个。
历史上的每种内容形式都有其适合的平台,无论是短文、长文、图片、短视频、中长视频还是音频。根据历史经验,前一个时代的平台领导者,往往不能在下一个时代中保持主导平台地位。
3D内容,无论是静态的世界场景,还是场景中发生的动态人物动作、戏剧、游戏等,都是全新的内容形式,因此必然需要一个原生的3D内容平台
在信息爆炸的当代社会,平台的重要性被提升到前所未有的高度。没有平台的时代,只有少数人“有钱有闲”可以创作或消费内容,内容品类也十分单一。直到出现大众级别的创作者工具——电脑打字和拼音输入提升了文本写作速度;手机摄像头提升了图片和视频拍摄的效率;“剪映”们提升了剪辑效率……这才让广泛的人民大众加入了创作行列,从而让内容供给出现爆炸式的增加,同时诞生了新的内容范式和内容品类。
因为创作门槛极低,一旦有“科目三”这样的内容“爆款”,就会吸引更多创作者去不断翻拍,使得内容形式快速进化。而如果没有抖音、B站这种类似的平台方,给创作者提供托管、演示、分享、交流的基础,上面这一切都不会发生。
在3D内容方面,目前即使有人制作了一个精彩的3D模型或场景,除了在爱好者社区直接交换源文件之外,还没有直观且便捷的方式来发布和分享这些内容,无法让更多人看到。作为类比,早期的视频分享服务也是交换文件的,直到P2P时代都是如此。不过,如今的视频网站、App和拍摄分享过程中,普通人用手机能全部完成操作,不需要再了解文件的概念。
由于设备和内容限制,人们往往难以直观地了解3D内容的成品长什么样子,以及为什么这东西比现在已经无限供给的短视频吸引人。宋亚宸认为,一旦合适的平台建立起来,人们自然会知道它应该是怎样的。
比如说,新疆的美景风光目前可以用视频vlog呈现。在重建的3D场景中,你可以不做任何操作而跟着“游览车”一路前行,这类似于看vlog;而只要你愿意,你可以暂停这辆车的行驶,然后跳下车在某个地方仔细观赏或者自行探索路线。
宋亚宸表示,从历史上看,内容平台有三个作用:降低发行门槛创作门槛体验门槛
·发行门槛方面,平台将输出格式标准化,并且通过热门内容“打样”,让创作者清楚消费者想要什么,知道如何表达能被更多人欣赏,这样他们就可以放心地创作。
·创作门槛方面,降低创作难度的意义,就像汉字输入法对于创作文字内容的意义一样不言自明。3D创作也要有自己的“打字法”。
·体验门槛方面,3D平台必须兼容当前的屏幕设备,和日后可能会出现的VR眼镜或其它设备。宋亚宸认为,现在包括短视频在内各种媒体形式的超量供给,使得人们在消费内容时逐渐缺乏耐心。不过,3D环境带来的新感受可能会让单条内容消费的平均时长有所增加。已经熟悉玩传统屏幕呈现的3D游戏的用户可能会更快适应3D平台的操作。
只有在有了合适的平台之后,内容才能吸引各种人参与创作,接下来才会出现3A级大作的产生。对不玩游戏的人来说,“3A大作”有一个非常简单的解释:“很多时间(a lot of time),很多资源(a lot of resources),很多钱 (a lot of money)”。宋亚宸说,“也可以粗暴地概括为:1亿美金成本、100人、三年时间。”
利益的驱动将使得更多人——无论他们处于什么专业水准——都会参与到内容创作中。因此,把这个平台的未来景象尽可能地描绘出来,其重要性就在于此。

为什么是他们来做
宋亚宸1997年出生,美国读了8年书,2019年回国之后就加入了商汤科技。
2019年商汤就在做AIGC 3D,2021年正式成立了AI游戏事业部。不过总体上,当时这些工作与纯人工相比,能节省的工程量有限。2021年6月份,宋亚宸参与创立了某独角兽AI公司。
他说,自己一开始没有想过自己创业,但是他比较喜欢接触C端产品,包括动画IP和游戏。在工作的过程里接触到了很多对3D内容以及AIGC有丰富经验和感触的朋友,大家对3D内容的想象和愿景出奇地一致。当所有人看见了同一个未来之后,好像创业就变成了一件水到渠成的事情,VAST就出发了。
VAST希望自己能做出3D世界的“打字法”,这要求算法团队向“通用”迈进。
VAST的算法团队认为,应该改变业界传统意义上将3D生成和2D生成截然分开的思维,在3D生成中借鉴文生图的一些成熟思路。他们将3D视为多个视角的图片或视频来处理,这样就可以用其它来源的2D多视角图片和视频数据,来加速3D生成的学习过程。他们还想让训练3D生成模型的过程,和现有的图形处理方法兼容。这涉及到使用一种统一的模型来一并处理2D和3D数据,让这种模型更通用而且更可扩展。
在这种“多模态统一路线”下,VAST目前发布的通用3D大模型Tripo,能够在8秒内生成一个带有贴图的3D网格(Mesh),“网格”是在Blender、Unity等工具中显示3D物体的基本图形元素,也就是一个“物品”。VAST相信,他们可以对现有的高质量数据集做更深入的利用,并且不断更新算法,使得生成的3D资产在质量上超越人工建模。
VAST AI招聘的风格也是一样的“不走寻常路”。宋亚宸的思路并不是刷简历的学历指标,而是从一开始去找行业内最核心的论文,然后把这些论文的一作、二作、三作找到,每天和他们聊公司业务规划和行业进展。宋亚宸自己每天前期花80-90%的时间在招人上,而且“只要最好的人”,因为“做更难的事,需要花最大的精力找同路的人。”
因为创业团队早期没有露出,为了招聘到最顶尖的人才,去年8月份他争取前往图形学顶会SIGGRAPH做了主题演讲。由于公司刚成立,缺乏相关证明,他们委托朋友写了很多的推荐信和证明文件,而且经过了多轮面试,最终可以和IBM,英伟达,索尼等的高管同台,在五十周年的主会场上发表主题演讲。他讲的内容深入浅出,为在场听众提供了比较陌生和新奇的视角。
团队目前有五十多名员工,超过90%为研发人员,主要来自全球顶尖企业和科研院校。公司在北京的办公地点在清华隔壁的五道口,那里名为“华清嘉园”的小区是如今叱咤风云的诸多互联网巨头的摇篮。

做得怎么样了
宋亚宸向我们展示了通用3D大模型Tripo的WebApp版本。当在文本框中输入提示词时,网站会自动检索已生成的同类成品。这意味着如果打字的时候发现别人已经生成了所需内容,可以借鉴和参考其提示词再次生成。
我们尝试生成了一个人物形象和一把宝剑。尽管生成的人物全身像的面部表现还有待提升,其身体线条,以及宝剑等物品的形态都相当不错,上面的纹理也能自动贴合,精度较高。此外,生成的内容可以直接导出到常用的3D设计工具中。宋亚宸说,在Tripo近期将进行的更新之后,生成质量和速度还会继续改善。
产品发布后,在相关社区引发了二次创作的热情。有早期社区用户利用Tripo的文本生成3D的API,创建了一个实验性游戏Tripo Go。这是一款把AIGC 3D技术与传统的宝可梦对战玩法结合的小游戏,并且已经在巴西和韩国有了不少玩家。这款游戏的开发者Allen说,游戏的自然分享率是0.7——意味着10个玩到游戏的人里面有7个会把它再分享给其它朋友。
据开发者透露,通过调用Tripo API,两个人仅仅两周时间就完成了大部分开发工作。开发者在Reddit分享了自己的作品后一天就涌入数千用户,其后在AI用户圈子中持续发酵,甚至有韩国头部Tiktok主播开始对这款AI小游戏进行直播,成功破圈。
玩家可以用Prompt(提示词)生成拥有战斗能力的3D怪兽(其实也可以是人,或者一个物品),并与其他玩家的怪兽匹配对战(方式是掷骰子);通过累计胜利,可以使自己的3D怪兽不断进化,“吃掉”对手身上的一部分特征。该进化的逻辑是获取对手的提示词,并把它整合到自己的提示词中,重新生成新的3D怪兽。
Tripo Go 用提示词的方式重新发明了“进化”这种传统游戏的体验。即使最终结果有的挺“魔性”,也让人对这种简单的玩法乐此不疲。我们找到了一条玩家视频:
上面说的这些与我们刚才讨论的“虫洞”式信息流平台有什么关系?显然,这是所有人在一同探索“下一个抖音”里面将会承载什么内容。
就像历史上的平台冷启动一样,平台刚刚呈现在人们眼前时提供的初始内容,往往是由专业人士和普通人共建的。
在海外社交媒体上,发布不到20天,Tripo的生态开发者就已经用AI生成的3D模型在引擎里做JRPG3D、AR等等各种实验性尝试,这是全新内容社区的雏形。
在VAST的规划中,3D内容范式的“叙事”能力是非常重要的一环。人们当然可以选择在美轮美奂的场景内驻足流连,但如果一个沉浸式的“剧本杀”、“演唱会”、“吃鸡”也发生在这个环境里,将会发生完全不一样的化学反应。
与未来3D体验关联最高的现有媒介形态无疑是游戏。作为“第九艺术”,游戏在内容和剧情上的体验升级有了《使命召唤4:现代战争》、《艾尔登法环》、《博德之门3》等佳作案例佐证,大型游戏内含的设定、台词等文本体量可能丝毫不亚于一本超长篇小说。甚至是今年火出圈的《笨蛋,我被美女包围了》也在一定程度上说明了“剧情为王”的设计原则。
宋亚宸说,VAST认为在3D剧情内容领域,AI完全可以大显身手。不仅是游戏业界已经在积极尝试的AI NPC,包括场景、物体和地图,最终什么都可以用AI搞定,“千人千面”的游戏界面也不是没可能。例如社区用户贡献的JRPG案例,综合运用了MidJourney、Tripo AI生成游戏资产,Marigold将图片转化为场景,Mixamo做出人物动作,最后用开源的Godot Engine整合到一起。所有工具都是现成的——但可能还需要再自动化一点。
在宋亚宸和娱乐资本论·视智未来的讨论中,还提到一个有趣的可能性:随着可靠性和逼真程度的提高,可以提供一个“3D版横店”即虚拟拍摄基地,用于动画管线制作流程中,早期概念预览片段制作、分镜示意的生成、中远景3D美术资产和场景生成等。即使有多家同类产品可以选择,VAST目前的并发和渲染等技术能力,也将成为电影人或短视频拍摄者选择的依据。
最后,通过“虫洞”切换的转场方式是不是应该注册一个专利呢?在iPhone时代“下拉刷新”这种特有的互动形式开发者就这么做了,并且在技术发展的历史书上留下了自己的名字。
宋亚宸说,他目前还没有想的这么深。他们在许多方面会选择与开源社区互动合作,所以即使最终不是由他们实现,也是“功成不必在我”。他和同事们怀着强烈的理想信念工作,期待人们最终可以成功地将3D内容视为继图文和短视频之后的下一代内容形态。
(本文呈现的谈话内容仅反映受访者的个人意见)

微信扫码关注该文公众号作者

来源:娱乐资本论
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。