Sora颠覆的行业，远不只是影视制作

国际科技财经移民娱乐民生时事体育

Bendi新闻

Sora颠覆的行业，远不只是影视制作

10月前

Sora真正革命性的进步并不是视频生成

Open AI在2月14日发布视频生成模型Sora，由于对现实世界的仿真效果过于惊艳，引发“影视行业将被彻底颠覆，影视制作人员都要下岗”的惊呼。

不过也有人认为，Sora虽然强大，但影响力似乎只局限于影视、游戏等视觉表现领域，远远不及ChatGPT这种应用更广泛、对生活的大语言模型。

实际上，Sora并不只是视频应用这么简单。

比如说，视频中被前景的人遮挡的商店，如果人移动开，就会显现出来，这对人脑是很平常的场景，可如果要让电脑理解，以前都是通过3D建模，告诉电脑两者之间的空间关系，但现在机器自动生成，就意味着算法能自己理解这些真实世界中物体的物理运动关系。

所以它更大的意义是实现通用人工智能（AGI）的重要里程碑。

这可是一个非常重要的突破。物理法则并非先天就存在于我们的大脑中，举个例子，1岁以内的婴儿，当正在逗他玩的母亲躲到墙后面，虽然婴儿能看见母亲的移动，但他并不理解为什么母亲会消失，只有无数次看到母亲从一个地方消失又出现，他才能渐渐理解这个世界的物理法则，包括3D一致性、物体连贯性等。

Sora是怎么做到这点的呢？

从官方的技术文档中看出，Sora的模型架构为“扩散模型+transformer”，扩散模型就是现在大部分文生图的大模型，而transformer就是ChatGPT的大语言模型，后者是质变的关键。

Sora借鉴transformer将文本信息转化为token的思路，训练时将大量不同画幅的视频素材划分成若干个tuplet，每个tuplet会变成一个带有空间和时间视频表征的时空patches，这才是它理解世界的关键。

传统的视频产生的方法是将视频简单分解为一系列连续的帧，但并不包括每一帧中物体的位置和运动的空间信息，就像1岁的婴儿眼中的世界是二维的，并不存在母亲移动的时间与墙的空间的关系，所以无法理解母亲为什么消失。

而以时空patches为“积木”进行堆叠的Sora大模型，可同时考虑视频中物体的时空关系，能够更加精准生成视频中物体的细微动作和变化，保证内容连贯性，就像二岁以后的孩子，就能理解母亲不是消失，而是在墙后面。

当算法理解了这个世界的真实物理关系，可以认为，Sora的应用能力绝不仅仅是视频生成。

当AI遇到真实世界

到目前为止，生成式AI去理解和创造的，包括文字信息、声音、画面和视频，都是人创造出来的信息世界，而非真实的外部世界。它能帮你找到100首关于庐山的唐诗，但它无法与现实世界里的庐山联系起来。

但Sora让我们看到了AI与世界互动的可能，Sora可以模拟一些简单的动作来影响世界的状态，画家可以在画布上留下随时间持续存在的新笔触，或者一个人可以吃一个汉堡并留下咬痕，如果Sora真的理解了这个过程，那就应该能把这个过程运用到真实的世界中。

比如工业软件。

目前有很多仅用于单一领域的工业软件，它们可以精确地模拟工厂某个流水线上的真实世界的物理行为，如物体运动、流体流动、结构响应以及各种环境条件下的系统性能，但这些工业软件没有人工智能，完全依赖编制好的程度运作，一旦环境改变，就“熄火”了。

相反，Sora这一类通用人工智能模式，在模拟个别物理世界时，存在不合逻辑的错误，无法理解其中的因果关系，比如椅子飘浮在半空，老太太吹生日蛋糕上的蜡烛，火苗甚至没动。

未来，Sora可以为这类专用的工业软件赋予人工智能，令其能解决更复杂的问题，达到熟练工程师的程度，这就是Sora影响真实世界的方法。

再比如智能驾驶。

特斯拉同样开始了对世界模型的探索，可以同时对车身周围八个摄像头的未来情况进行预测，可以精准的模拟过去难以描述的场景，如烟尘，可以用来做分割任务。

目前智能驾驶仿真采用 NeRF+素材库排列组合+游戏引擎的技术路线，虽然保证了场景的真实性，但人工智能的泛化性不足；而Sora这一类世界模型能够理解物理世界运行规律、同时具备泛化到训练样本以外的能力，能够迅速生成非常真实和多样化的驾驶场景用于智能驾驶仿真。

根据马斯克推特的公开回复，业内推断特斯拉大概率和 Open AI 一样采用的是 Diffusion+Transformer 生成式 AI 的技术路线，所以，未来Sora一类的模型，很可能成为智能驾驶的基座模型。

从工业软件和智能驾驶这两个方向，可以明显看到Sora颠覆的决不仅仅是视频制作这个领域。

AI的投资机会

最后还是回归到投资，看看Sora会给我们带来哪些新的投资机会呢？

首先还是算力，伴随Sora不断迭代调优，训练数据集规模增大，未来算力需求将呈现指数级爆发式增长，所以最确定的还是上游算力基础设施的投资机会；

其次是应用，技术上的突破指出了方向，那些拥有强大工具产品的视频模态相关标的有望受益，特别是海外业务占比高的公司；

最后还要关注一些工业软件的公司，这类公司往往具有仿真算法和各类物理模型，与大模型公司合作，可以提升软件的应用能力；同时，大模型公司与之合作，也能显著提升视频生成模型在表现物理世界的复杂性和准确度。

不过，相比只需要买几个最确定标的的美股，A股人工智能方向的标的，比较散，没有各方面都确定性的绝对优势品种，所以最好的方法还是买入人工智能主题的相对基金，比如人工智能AI ETF（代码：515070）。

这个ETF的前十大持仓中，中际旭创、韦尔股份、澜起科技、中科曙光、紫光股份，都是算力相关标的，科大讯飞和金山办公是大模型及应用相关公司，海康威视和大华股份都是视觉相关的工业软件公司。

这个板块在去年上半年大幅上涨后，经过下半年消化估值和宏观不利因素，最低时已经低于去年AI行情启动时的价格。虽然国内的AI明显落后了，但后发优势在我，产业政策上也全力支持，相比美国如火如荼的AI行情，等于多了一次倒车接人的机会，如果你相信AI对未来世界的改变，这个人工智能AI ETF（代码：515070）还是非常适合的投资品种。

来源 | 人神共奋（ID：tongyipaocha）

作者 | 思想钢印；编辑 | 荔枝

内容仅代表作者独立观点，不代表早读课立场

微信扫码关注该文公众号作者

来源：互联网er的早读课

Sora颠覆的行业，远不只是影视制作

相关新闻