对话 MiniMax 闫俊杰：现在的 AI 应用不会成为 Super App，但这不重要

国际科技财经移民娱乐民生时事体育

Bendi新闻

8月前

以语音助手切入的多模态，是提高用户渗透率的一种尝试。

对话 | 张鹏

文 | 黎诗韵
编辑 | 靖宇

和多数人一样，在看到 OpenAI 最新发布的「AI 智能助手」GPT-4o 时，MiniMax 创始人兼 CEO 闫俊杰的第一感觉是「惊艳」。他也为那些演示效果着迷，如丝滑的语音交互、实时的视觉理解、语言捕捉甚至包括了「呼吸声」。

作为中国第一梯队的大模型创业者、OpenAI 的最重要追赶者之一，他迅速看穿了这场「魔术」背后的手法。在发布会结束两天后，这位以神秘、低调著称的从业者，罕见地做客极客公园直播间，和极客公园创始人、总裁张鹏进行了近 2 小时的实时访谈。

从这场发布会切入，他聊到了技术和成本、行业赛点、开源与闭源之争、投流和 PMF、超级产品等关键问题。

在他看来，这次 OpenAI 展现的技术难度并不高（比如语音模型处理速率更低、容易对齐到语言模型，实现丝滑语音交互）。使他感慨的是，这位对手在行业最重要的使命上迈出了重要一步——那就是让 AI 为更多普通人所用。

他说，GPT-4o 本质是多模态（文本、语音、视觉）的进步。而他很早就意识到，大模型在多模态的每一次进步，都会带来用户体验的提升、获得更高的用户渗透率。比如，当 GPT-4o 拥有更丝滑的语音交互（延时缩短、增加情感等）后，它就会走向更多人。

这也是他于 2021 年底创立 MiniMax 的初衷。彼时。ChatGPT 还没有出现、业内也没有人相信大模型。促使他一定要创业的动力是，「把人工智能做成通用、服务大众这件事是很重要的。」

在这个目标驱使下，MiniMax 是行业少有的同时做模型、产品的公司。目前，MiniMax 是国内 AI 产品做得最出色的公司之一。其产品主要分为两类：一是「星野」代表的娱乐类，对标 Character.AI，目前处于国内领先位置；一是「海螺 AI」代表的效率类，对标 ChatGPT，尚在起步阶段、但是他目前最看重的产品。

GPT-4o 的发布，让他更明确了「海螺 AI」接下来的研发方向。他说，下半年的目标是，要把过去彼此独立的多模态大模型融合在一起。并且他认为，这会是未来行业的「必答题」，效率类产品必须跟上。不过他认为，从长远看效率类产品的本质方向，仍然是要提升底座语言大模型的上限。因为其最重要的指标是用户对回答的满意度，而现在连 ChatGPT 的回答满意度都只有 60%。

尽管 AI 在过去一年多引起了全球广泛关注，但它距离为普通人所用的未来还很遥远。闫俊杰做了一个演算，目前国内最好的效率类产品 DAU 只有 400 万、国外是 1000 万，这意味着 AI 在移动端的渗透率可能不到 1%。从业者们要做的努力还有很多。

用户满意度和渗透率、以及背后需要的技术进步，似乎一直是他思考的「第一性原理」。而当我们谈到成本、商业化、行业竞争等等关键问题，他的答案都围绕这点展开。比如他说，「投流是因为技术没有拉开足够差距」、「搞不懂 PMF，其实有了用户时长就会有商业价值」、「如果创业者没有做出足够创新，这件事就该大厂干」……在这场对话里，我们能看到这位技术向 CEO 难得的「简单」、少见的「坦诚」。

那么，最终我们何时能迎来大模型时代的 Super App、真正让 AI 普及大众？他说，也许目前的产品都看不到这个可能，但这并不是一个重要的问题。原因在于，AGI 的路很长，很多事情无法现在就看清，没有必要给自己这么大的压力。还是那个回答，做好技术和产品，有能力跟上一代代的创新，最终才有机会看到那一天的到来。

以下是这次直播对话的实录，经极客公园整理后发布：

谈语音助理：效果惊艳、

能提升用户渗透率，

且在技术上并不难实现

张鹏：你应该也是非常详细关注了 GPT-4o 和谷歌 I/O 的这两个发布会，它们的风格其实挺迥异的，你个人对哪个印象更深？更喜欢哪个？可以分享一下原因和理由。

闫俊杰：一方面，我自己其实是一个用户，会每天使用这些 AI 产品。另一方面，我自己又是从业者，所以有很奇怪的两种不同感受。

看 GPT-4o 的发布会的时候，作为用户来说，我觉得非常惊艳。特别是那两个演示，一个是（AI 听懂了）呼吸声，一个是拍照做一些事。我当时觉得为什么人工智能可以变得这么流畅，大家都觉得实时的语音交互是第一次有人实现。这个事确实很成功的，非常显然 GPT 发布会的风口和传播量是大于谷歌的。用户肯定觉得 OpenAI 的发布会更震撼。

不过发布会那天晚上，我就开始想这个东西到底怎么实现的。大概想了半个小时之后，就觉得实际上是很直接的事。为什么？原因是，说话是比打字要慢很多的。比如说现在正常的语言模型，基本上每秒可以处理的 token 是十几个到二十几个量级。但是说话其实每秒只能说 3-5 个字，大概只有 4-5 个 token。所以语音的速度是远远慢于现在标准的语言模型的处理速度的。

这个意思就是说，只要把语音的模态——就像之前做图片跟文本一样，只要把它对齐到语言模型上，把它改造成一个成纯流式的交互，这件事改造起来非常自然。

所以我觉得这件事体现出来两个事：第一，OpenAI 还是能够从非常底层思考这个事。第二，这个事的技术难度其实远小于 Sora 或者一开始 GPT-4 的技术难度，这就是我看 OpenAI 发布会的感受。

张鹏：那看了谷歌的发布会你有什么感觉？

闫俊杰：谷歌的发布会不是看的直播，而是第二天看了完整的两个小时视频。它最前面是 DeepMind 负责人讲了很多技术的部分，这部分就很像是一个中年男人拖家带口来搞科研，一定既要满足股东、又要满足用户、又要满足市场对谷歌的期待。

张鹏：还得不能让社会质疑你有 ethic（伦理）的问题。

闫俊杰：对，相当于画了很多目标，几千人的研发团队大概做了一年，做出来了很多东西。每一点应该都不是最好的，但是能同时做这么多东西，从芯片到产品都做，可能也只有谷歌有这么多的研发力量能做。

但是我比较震撼的是它的 AI 搜索。AI 搜索在过去几个月很火，海外有 Perplexity，包括 ChatGPT 在内，以及国内很多助手，大家都会做搜索，甚至声称替代了传统的搜索。坦白说，我觉得目前这些产品的搜索和谷歌展示的那一套 AI 搜索，还是有非常大的差距。

因为我觉得里面非常核心的东西，可能只有谷歌才有。比如很多实时的本地的信息，这些信息对一些高价值的场景其实有非常大的价值。如果我是用户的话，我其实非常愿意用这样的搜索，这种体验绝对不会是在 ChatGPT 里外接第三方的搜索引擎就可以实现的。坦白说，我觉得这是谷歌真正的壁垒。

其次，目前大家用的其他的 AI 搜索产品里面，只有单步的推理，谷歌展示了多步推理，这对搜索体验的提升还是非常大的。这个事谷歌也是第一个做的。它本身不难，原来的语言模型能够支持就好了，但是说明谷歌已经想得非常深刻了。

最后，可能是谷歌独有的优势。实际上包括 OpenAI 在内，几乎所有公司的视频理解都做得比较一般。甚至 GPT-4o 里面展示的东西，它的 Camera 其实处理的也不是 video，而是静止的图像。真正能够做到非常流畅的视频理解，效果比较好的，好像只有谷歌。Gemini1.5 做的相当不错了。

我在想为什么这件事这么重要呢？为什么谷歌非得做这件事呢？其实也可以理解，原因是谷歌有大量 YouTube 的视频，但是这些视频无法被展示出来。因为之前的搜索只能有一个标题，或者非常简单的标签。现在这个技术，就可以把这些视频加到搜索的结果里面去了，这是非常独特的一件事。

总体来说，我比较受震撼的是有了 AI 之后，真的可以把搜索这件事有质的提升，并且这件事谷歌已经走得非常靠前了。

张鹏：感觉我们大部分都是观众，看完发布会的「魔术」都「哇」一下，但你是「魔术师工会」的，你看完了会琢磨一下这个「魔术」怎么实现的。比如语音这件事看起来很厉害，但没有想象中那么难实现。所以有人评价说，OpenAI 这次主要是工程上的进展，它选择了一个明确的目标、甚至可能针对发布会的场景做了很好的想象，然后它的工程能力配合技术能力、完美的把这个点打爆了。而不像上次 Sora 那样是技术的本质变化。这么理解对吗？

闫俊杰：可能不同的人对系统、算法、工程的理解都非常不一样，我说一下技术上的理解。

虽然我也不知道 OpenAI 具体是怎么做的，但我猜 OpenAI 的语音技术可以分成两步：第一，用大模型做语音的合成。第二，把大模型的语音合成和语言模型合在一起。第一步其实去年有了非常多进展，但问题是在做交互的时候，要先把声音变成文字、再用语言模型生成回复、再用这个模型来跑一遍。

张鹏：当时不是端到端的实现，而是要分几步。

闫俊杰：对，这个会造成延时和信息丢失。这次 OpenAI 就更进一步，直接把语音模型和语言模型合在一起了。

这在技术上是比较容易做的，因为声音和语言模型都是 Transformer 的模型，本质上就是把声音模型的 incoder（编码器），对齐到一个语言模型上去。这个事在图片里面已经发生了，现在只是把图片换成了声音。而且因为声音的处理速度远低于文字处理的速度，所以改造成流式是非常自然的。

这带来的结果是，原来 ChatGPT 的语音交互、包括海螺 AI 的语音交互，大概延时会有两秒。现在纯流式了，延时只有 300 毫秒，就是说一个字的时间。

张鹏：所以这种语音技术路线其实并不难、而且很早就被证明是可行和明确的，这是否意味着它不会是 OpenAI 的独门技术，而是可以迅速扩散到更多的公司？

闫俊杰：我觉得如果一个公司或者组织，它之前能独立做好语言模型、并且能独立地做好利用这种 LLM 方式做声音的模型，如果这两个都具备了，把它合在一起是相对比较轻松的。不过这背后还涉及到很多工程链路上的优化。

但比较核心的还是你的目标是什么。比如 OpenAI 为什么要把语音延时降到 300 毫秒，本质上是因为在移动端，每当你降低延时、对用户体验就会带来特别大的提升。为什么线上会议没法替代线下见面，核心就是它有几秒的延迟。而延时优化的极限就是一个字的时间，300 毫秒，你在这个目标下最后就会推出来最合理的技术路线。

张鹏：延时的问题我很有感触，之前有声音赛道的创业者跟我说，如果延时超过一秒，用户就会发现对方跟自己不在一个地方聊。所以语音助理没有延时之后，你感觉它从云端，走到了你房间里，这个感觉给人的冲击感是非常强的。它对用户体验的提升有多强？语音是否会成为主流的交互方式？

闫俊杰：过去一年非常明显的变化是在车里面，你可以看到新能源车里的语音渗透率是显著变高的，这说明在一个场景里，如果你能够把语言的交互做得非常好用、且有实际价值，它的用户渗透率就会变高，至少在智能车舱里面已经实现了。这个事在现实生活中也会是一样，这也是为什么 AI 公司会越来越重视声音交互的原因。

过去一年大模型虽然是非常热的词，但现在全球每天使用 AI 产品的人只有四千多万，而这四千多万里有三千多万在用 ChatGPT，而这三千多万有两千万是用 Web、一千多万是用手机。而现在全球每天使用手机的人可能有 4 亿人，所以 AI 在移动端的渗透率可能不到 1%，这是非常低的数字。真正主流的产品，比如说短视频、或者长视频、或者社交，它的渗透率应该都是 50% 以上。

我觉得未来有志于做 AI 产品的公司，一定要思考一个逻辑，那就是怎么让用户渗透率变高。其实唯一的方式就是让更多的场景可用、让更多的人可用。我觉得声音应该是符合这个趋势的，它可以让一些不方便打字的人进来、并拉来更多场景。这是 AI 公司提高渗透率的一种努力。

在 OpenAI 发布会上，研发人员与 GPT-4o 对话｜图片来源：OpenAI

张鹏：你觉得它是会增加存量用户的黏性、还是获取更多增量用户？

闫俊杰：这两个事都可能会发生。我们发现很多场景确实只有语音才会发生，举个例子，比如说在海螺 AI 里面，很多家长会让它给小孩讲睡前故事。这显然扩充了使用人群。

再比如，我们发现有很多用户会用它来学英语口语。从这个维度上来说，它应该是提升了用户的活跃。还有我自己亲身的例子，我今天春节回到老家看我外公，他已经 80 岁了。他在很破的安卓手机上装了海螺 AI，会跟它打很久电话、讨论历史人物。之前你很难想象一个 80 岁的老人会这样用 AI。

而他们在用这个产品的时候会真的把 AI 当成一个人，比如他会说你（AI）声音能不能大一点，其实潜意识里把它当成人了。

这也是我们为什么那么相信通用智能的原因，它就是服务普遍人的东西。问题是整个行业的渗透率确实没那么高，更简单的交互是很重要的一方面。

张鹏：你说过自己很早就坚信多模态，是因为产品每扩展一次模态、都能扩展一批新的用户。你预测 ChatGPT 改善语音技术之后，它的 DAU、用户时长这些数据会有什么变化？

闫俊杰：实际上现在没法猜，因为它还没有上线。我觉得使用时长会变长，但是用户渗透率会不会有显著的变化，我其实比较怀疑。

张鹏：语音交互确实对人有门槛的，很多上一代做语音交互的朋友们复盘过，大家打开一个语音助理之后会突然不知道说什么，然后就停了，这件事跟技术其实没有关系。它其实需要用户有比较强烈的目标和意愿去用。

闫俊杰：对，我觉得对年轻或者比较年长的用户会更友好，对中间的用户反而不会。原因是因为，愿意使用 AI 的人、或者听过 AI 的人，大概率至少试用过一些东西了。

谈行业赛点：多模态融合

是大模型行业「必答题」，

决定效率类产品的成败

张鹏：你自己也在大模型领域创业，各项技术能力都在主动跟 OpenAI、谷歌做对标。看完这两场发布会之后，你感到的更多是一种兴奋，还是一种挑战？

闫俊杰：我觉得有人跑在你前面是好事，这说明这个行业上限远远没有到。

我个人是非常期待 OpenAI 会出 GPT-5 或者其他的东西，即使作为一个业内人士，我也是希望 OpenAI 进步速度能保持这么快。反正也没有竞争，实际上没有任何的竞争。但是这不是因为不想跟他们竞争，是他们太强了，构不成竞争。

至少目前，真正把算法汇成产品，真正开拓 AI 行业边界的，主要还是 OpenAI，如果他们能够非常快地开拓 AI 的边界，至少说明 AI 的用户渗透率是有底层动力的，而且这个动力可持续的。

OpenAI 可能比中国公司多 10 倍的研发资源，如果他们都做不出来创新，这才是这个行业比较可怕的一件事。

张鹏：你有方法、有路径，有计划，未来可以在你们的产品里见到跟 OpenAI 今天类似的用户体验吗？大概多长时间可见？

闫俊杰：首先我觉得这个事肯定可见的，虽然他们怎么做的我不知道，但是我觉得我刚才的分析应该是对的，至少那种方法可以实现，至少它是有一条比较明确的路径。

其实对我来说，主要的挑战不是语音模型，主要还是把语言模型做得尽可能好。真正的原因是因为，现在的多模态实际上还是以语言模型作为核心的。今年我们在做上一版 ABAB6.5 的时候，我们其实把万亿量级的 MoE 这件事做通了，这还是个语言模型。

另外，我们在去年的时候，每个模态都是独立的，虽然它们有同样一套框架、里面都是 Transformer，代码也是差不多的，但是它的数据和模型是独立的。现在我在设计下一版的模型，我们下半年的核心考虑是如何能够能有一个上限更高的语言模型，以及把这些不同的模态合在一起。

我们还没有完全设计完，还有很多的实验需要做。但是它基本上已经是可见的东西了。接下来这个模型会分成两个阶段：第一，设计阶段，有很多假设，你要做很多实验验证你的假设。第二，假定，你认为你的假设验证得差不多了，把这些东西合在一起，最后训练这个模型。

这里面的 trade off（权衡）是说，你的这些假设，或者你设计的这些预测实验，到底要做到多好？这是我们正在经历的一个事。

MiniMax 旗下的效率类产品「海螺 AI」｜图片来源：MiniMax

张鹏：最近听到谷歌提的比较多的是 One network Moti-modelity，多模态是在一个神经网络里实现的。现在 MoE 在训练万亿大参数的模型上是非常有效的方法，但下一步如果做多模态融合，方法上会跟以前有什么不一样吗？

闫俊杰：这个是两个维度，第一个是中间这步都是一堆巨大的 transformer，为了提升效率，不管训练效率还是推理效率，大家主流的选择都是一套 MoE，比如 GPT-4。据传 Gemini-1.5 也是长这个样子。如果你做一个大概几千亿参数的模型，基本上这就是必然的选择。

第二个，你有不同的模态，怎么样能够合到这个大的以 MoE 为基础的主干模型上，这就是多模态。现在已知的东西是，怎么把视觉的理解跟主干模型合在一起，比如说像 GPT-4v，你先有一个巨大的 MoE，再把视觉的东西对齐，就可以有比较好的视觉的理解。

未知的东西有这么两个：

第一，GPT-4o 里面展示的，把声音也对齐到里面去，这是 GPT-4o 干的其中一件事。

第二，生成的这部分，比如说图片的生成、视频的生成能不能合进来。至少现在，视频是没有实现的，比如说 Sora 是独立的模型。为什么会这样？原因是视频的 tokenizer（标记）是有损的压缩，基本上要通过 diffusion（扩散）才能恢复到一个比较正常的状态，现在还没法整。当然会有很多人做，可能明年才会整合一起。但是视频的生成目前还不知道怎么整合的。

图片的生成我不知道，比如说在上一代 DALL-E 3 的时候，其实也没有整合在一起的，也是独立的模型。但是这次看 GPT-4o 的话，我感觉它们似乎整合在一起了，但是我不是特别确定。我觉得基本上底层的技术就是这样了。

张鹏：那么紧接着多模态统一融合的能力，会不会成为下一个阶段大模型领域、尤其是中国的创业公司们要去提升的目标？这是不是所有人都必须要跟上、必须要解决的问题？

闫俊杰：我更觉得是必须要做的事。其实这分两个产品，目前 AI 产品有两种，一种是满足娱乐需求的，一种是满足效率的。娱乐的不说了，是运营的属性、产品的属性，更加偏综合产品能力的事。

偏效率的一定是需要做（多模态）的，因为从历史上来看，所有效率的产品基本上最终大家只会用最好的。比如说有两个产品，一个可以做很多东西，一个只能搜文字，那大家一定会用那个啥都能做的那个产品。当然这个前提是说，这个（多模态）赛道是存在的。关于这个赛道是不是存在，其实也是需要很多努力的。

张鹏：可不可以理解为 Sora 是「选答题」、可以不选，但是多模态的统一融合是「必答题」、如果答不好就会出局？

闫俊杰：我觉得你这个概述还是挺好的，之前没想到这样，确实更像是一个必答题。

Sora 这个东西其实有不同的用法，比如说有 PGC 的用法、作为工具属性的用法，也有 UGC 的用法、会涉及很多产品、内容的东西，不是 AI 都要做的东西。

但是在工具类、效率类、助手类的产品上，只要有公司做出来（多模态），其他公司必须跟上。因为基本上就这么点技术。

谈生态：「智能语音助理」

争夺战，巨头和创业公司

是复杂的竞合关系

张鹏：这次我们看到语音助理这个事，苹果想用到 Siri 里、谷歌想非常深层地用到安卓体系里，似乎它会是个很重要的入口级的东西，这个事最终会是巨头的 Game 吗？创业者还能干吗？

闫俊杰：首先，这个产品的所有用户体验几乎都来自于模型的能力。它不太取决于产品是巨头的产品、还是创业公司的产品，只是取决于背后是什么样的技术水平。它考验的是你能不能做出一个体验最好的模型。这里面涉及到你的技术模型怎么做、怎么做很好的对齐、怎么优化你的延时，怎么提高工程的效率、怎么降低计算成本等等。

其次，在商业层面，这个产品背后肯定要消耗成本。因为现在的 AI 产品跟早期移动互联网产品的本质区别是，以前我们不需要考虑每天维护用户的成本，现在我们都要考虑。所以这一代产品怎么变现是比较直接的。而手机上产品的商业价值有多大，几乎取决于它有多长的用户时间，因为用户时长总是有标准化的变现手段。

这样的产品，假设它能做到大部分的需求都在里面解决，比如说当我想要搜索的时候，我不需打开百度了。或者我需要看一个视频的时候，不需要在抖音里看了。只要它占有用户足够长的时间，那它的商业化效率就是足够高的，它的商业化跟时长是成正比的。

这个事最终会变成，产品的竞争力取决于技术能力，商业竞争力取决于你占有多少用户市场。

张鹏：我再具象一点，苹果属于完整的从硬件到软件的掌控者、安卓在操作系统上有天然的优势、OpenAI 是新型的基于大模型能力的创业公司，如果未来这三家公司都在抢占语音助手这个最关键的入口，谁更有可能是赢家？创业公司能赢得这个位置吗？

闫俊杰：我觉得这里面有各种各样的博弈、竞合关系，在搜索里已经发生了。我们能看到苹果里集成了谷歌的搜索，谷歌每年给苹果很多钱，为什么谷歌愿意付钱？显然因为谷歌在苹果里做搜索的商业价值，要大于谷歌自己付的钱了。

但是我觉得不管怎么样，如果看第一性原理的话，那在这里面如果谁能把东西做出来、并且把体验做得显著地好，那至少在里面你应该会有一席之地。

这件事我觉得更利好于拥有设备的公司，为什么？比如说我买一个小米的手机，只要给小米付一次钱，之后这个小米手机创造多大的价值，其实都跟小米没有关系了。唯一有关系的是，小米商店里面的分发里面会有分成，其他的基本上没有关系了。

张鹏：也有一些负一屏的内容广告，都是比较薄了。

闫俊杰：负一屏的内容水平显然是没有抖音或者小红书高。其实手机提供了很多用户时间，比如说我在小米上装了一个抖音，一个用户在抖音上花了很多时间，但所有的钱跟小米一点关系没有，都被抖音转走了。

我觉得一个比较强的 AI 助手的好处是说，它确实能够让手机的操作系统这层占领很多用户的时间，因为可以满足很多多样化的需求。这个事相当于是说它其实是把很多价值从 APP 里拉到手机上。

张鹏：最近我们也看到传闻，苹果跟 OpenAI 有可能在智能助手这个层面产生合作。所以按照你的推理，一家在大模型里做的非常优秀的公司，和一个对生态硬件、软件有掌控力的手机巨头，最终大家合在一起、在未来的生态里产生新的价值分配，这是符合逻辑的？

闫俊杰：对，实际上就是用户时间的分配，而这又考验背后的技术和产品能力。

张鹏：反过来说，如果 OpenAI 没有跟苹果合作，而是成为最强的 Super APP，作为独立的力量去挑战现有的生态、甚至对原有价值链进行重构，你认为存在这种可能性吗？

闫俊杰：这主要看它的规模。现在 1000 万 DAU 的 APP 显然不够格。到 Mata 这种 10 亿 DAU 量级的，估计会有本质的变化。但即使是 OpenAI，距离这个也有 100 倍的距离。

张鹏：现在想着做所谓大一统的 Super App、超级入口还是很难实现的，今天更现实的是怎么把 DAU 从一千万涨到 1 亿，这也是 OpenAI 很头疼的事。

闫俊杰：我猜这也是它们为什么这么在意语音的原因，因为这个东西确实有可能会提高渗透率。

谈技术路线：

投入通用基础大模型、

打造通用产品，能看到真正的未来

张鹏：前段时间在整个创业者的圈子里，大家围绕基础模型和开源模型争论很大。本质上是说，你要么自己做一个智能引擎，要么就买一个自己改。其实模型、产品双轮驱动，自己同时做基础模型和产品，滚动着往前走是最好的。但很多创业者说这风险很大，模型的一次迭代跟不上、或者产品 PMF 的一次失败，就不行了。你怎么看这两种路线？

闫俊杰：我觉得这本身是风险很大的事。先不说同时做模型和产品，只做模型、或者只做产品，本身就是风险很大的事。

张鹏：创业其实就是生死游戏。

闫俊杰：对，确实是很残酷的事。比如我们看美国的公司，OpenAI 是都做，Aanthropic 之前只做模型、昨天他们把 Instagram 的 CTO 也招过去了，我不知道是不是它们也有可能做产品。我觉得至少对做模型的公司来说，自己做产品几乎是必然的选择。我们算是比较坚决的，有些公司后面变成这样了，这是必然的。

反过来，其实对做产品的公司也是一样的。比如说我们国内的开放平台上，有很多做产品的公司和客户，其实规模还挺大的，大概有接近一千家。这里面有大的公司，也有小的创业公司。其实坦白说，对所有这些公司来说，如果它们的产品得很大，他们也希望自己掌控模型的。这也是必然的一个路。

所以这里面核心的考虑还是说，如果你觉得这件事是对的，本质上是说你现在有多少资源、最大化优化你们想优化的目标。对我们来说，我们的目标是要最大化地优化用户体验，那我们觉得这两个东西（模型、产品）都是重要的，只能两个东西都做，才能最符合我想优化的目标。

不同的人定义的目标不一样、路径不一样，就会出来很多不同的公司。

张鹏：所以产模一体归根到底是我们追求的最终目标，只是很多人基于今天已有的资源，会发现烧钱太高、风险很大，但这只是阶段的选择问题。

闫俊杰：还有一个更底层的原因。举个例子，假设有个需求要满足，而这个东西需要通过模型来满足——那如果是（模型和产品都在）一家公司，你的路径是优化这个业务指标就可以了。但如果（模型和产品是在）两家公司，你们干的事是把这个指标转成一个对模型的要求，让给你提供模型的公司优化这个指标。

这中间本身损失了很多信息，并且让周期变长。这个事一定不是最大化业务指标的方式。

当然这个事上，微软例外。核心原因是，微软的这些场景，Bing 的搜索、还有 office，其实都是一些能够变得非常标准化的东西，基本上主要依赖于模型的通用能力。OpenAI 的通用模型是最好的，那就可以给这些产品用。在这种情况下（模型和产品分开）是合理的，但是大部分情况下不是最优的选择。

张鹏：你提了一个非常好的问题，就是我们到底是要根据模型能力造产品，还是要根据产品目标去改模型？我打个比方，如果模型是一把枪，产品是靶子，我们今天到底是要造更通用的机关枪、在更多领域命中靶子，还是应该造一把高精度的狙击枪、就打中某个具体的靶子？

闫俊杰：其实这个事背后有一层含义，咱们讲这个时间点，AI 背后是有一些技术红利的。这个红利是说，全世界有这么多聪明的人、这么多资源、这么多社区在做这件事。这件事的价值或者能力远大于单个公司，也大于 OpenAI 的，显然也大于任何一个中国的创业公司。

所以一家公司的研发水平不是一家公司封闭做出来的，而是这家公司的自身能力加上整个行业整合出来的。只是不同公司利用的效率不一样。包括 OpenAI 在内，它们很多的东西不是原创的，可能是谷歌做出来的，但是它们把它很好的整合在一起，扩大规模，就变成现在的状态。

其实把模型做通用这件事，是一个比较容易来吸收到整个社区进展的途径。这件事本身是有巨大的红利的。

张鹏：今天你应该站在那个位置上，把更多的能力拿出来，让更多的人跟你共创，也许是用户、也许是产业里面的其他创业者兄弟们，OpenAI 有这样的感觉。但如果今天你只是做某一个产品、维系你自己的「菜园子」，你可能失去了世界与你共创的机会。

闫俊杰：客观的说不是世界与我们共创，是我们与世界共创。

张鹏：我看 Sam Altman 也不断提醒，大家不要基于今天模型的一些具体问题去打补丁，这其实是浪费时间。因为技术在滚滚向前，你在这个时空刚把补丁打完，这件衣服可能都已经换了，会出现这样的问题。

闫俊杰：客观上说能够做什么产品，其实是由技术的周期决定的。

比如说目前这一代，我们见过的所有产品基本上是以文字的交互为主，产品的功能基本上是助理这个层面的。不管是娱乐还是效率，基本上都是 copilot（辅助助理）这个框架。只是不同的人基于不同的理解、不同的资源、不同的团队，组成了不一样的东西。

假设我们有更好的模型，能力比现在再显著地提升，比如所有的测试都可以做得非常好，它可以独立来工作了，就不是一个 copilot、可能是一个 auto-pilot（全能助理），这显然会产生更多完全不一样的产品形态。

但是这个东西不是产品设计出来的，而是当你把技术 Push 到某一个阶段的时候，这个产品自然就清楚了。

谈成本：

技术成本两年内可能降 100 倍，

这比探索技术上限容易多了

张鹏：我想把话题延展到很具象的东西，前些天我跟投资人算了算账，今天千万级 DAU 的产品，恨不得一天花掉 200 万的成本，很高的。比如今天 GPT-4o 如果容纳了更多用户、获得了更大的用户粘性，它每天的成本得有多高？你肯定掌握一些成本结构的判断，能不能帮我们算一算？

闫俊杰：其实语音比文字便宜的，因为语音慢。比如文字一秒要生成 20 个 token，但语音一秒只有 4-5 个 token。而且人听的时候也慢，我看一千个字只需要一分钟，但是我听一千个字应该是很长的时间。

所以假设使用相同的时间，语音其实更便宜的。

张鹏：这挺反常识的。

闫俊杰：你觉得声音更贵，其实更便宜，这是第一点。

第二，优化或者降低成本一直是学术界非常经典的研究领域，很多年前我自己也在这个领域做了很多工作。但它实际上不是业界最高端的领域，最高端的领域一定是说如何拓展技术的边界。

一旦你能够拓展技术边界之后，怎么把成本降低 10 倍这件事，其实从最早的机器学习时期，比如我当年读博士的时候，到 2012-2022 年这 10 年用 CNN 来做（卷积神经网络）的时代，怎么来量化、减值、增流是有一套非常标准的 pipeline。

在 Transformer 这一代里面，其实也可以复用上一代的 pipeline。比如说做量化；比如说当你有一个非常长的 context window（聊天框）的时候，如何做缓存，效率更高、时间更低；比如说如何优化你的 attention（注意力）……有很多方法来做这件事，这其实是没那么难的东西，你只需要把每步做得足够好，拼在一起就会带来很大的变化。

张鹏：也就是说，相比于探索新大陆，现在掘地三尺把矿挖出来其实挺容易的？

闫俊杰：这个事我们想一下就知道了，比如说去年 3 月份刚有 GPT-4 的时候，那个时候又慢又贵，但是我们现在其实看 GPT-4o，包括之前的 GPT-4turbo，又便宜又快，效果又好，这只是过去一年发生的事。价格可能降了 10 倍，但实际上 OpenAI 比这个价格的降低还要更多。

我们大概算过，如果有两年的时间，成本可以下降近 100 倍。其实我觉得，技术的上限这件事相对来说没那么确定，需要更多的探索。但是成本下降这事，一定是有办法的。这个事在学术界已经发生了三次了。

GPT-4o 成本｜图片来源：OpenAI

张鹏：今天有的人在拼命地优化技术成本，有的人在拼命提升模型能力、想做到最 top，在你看来后者是不是更重要？

闫俊杰：我觉得从结果上来是这样的，但是从过程上两个事是相互转化的。这个其实是大模型里面一个非常重要的规律是，效率跟效果其实可以相互转化的。

假设训练精度一样，而你的算力是别人的 1/10，这意味着你能把效率做得很高，那你一定是能够把模型的上限变得足够高的。或者反过来说，如果你想要能力达到那个足够高的上限，那你一定只有把效率变得非常高，这个事才有可能。

所有人的资源都是有限的，一定是你的效率足够高、你的上限才能更高。实际上并不是我先冲到边界后再来做优化，实际上两边是要一起做的。

这也是为什么大部分研发越往上越难的原因，它要求你综合考虑。

张鹏：所以 Sam 说「给我多少万亿、我就能把 AGI 迅速实现」这种话，是不是太不现实了？

闫俊杰：如果类比的话，比如台积电现在是 7 纳米，那他接下来肯定是 5 纳米、3 纳米、2 纳米一代代往下做。他不可能把 5 纳米、3 纳米都跳过了，突然间说自己能做到 2 纳米。我觉得这个不太对，你很难把中间几步跳过去。

张鹏：远大的目标还是要一步步走，不能奢望直接通向目标，这也是创业的本质。

闫俊杰：当然可能它们太强了，我没有理解它们的精髓之处。不过正常情况下应该是这样的。

谈投流和 PMF：

国内 AI 产品不得不投流，

还是技术没有拉开足够差距

张鹏：说到成本，前段时间我们看到，业界 AI 产品都开始投流了。我感觉以前移动互联网时代，大家好歹是产品达成了 PMF 之后以后再投流放大，而现在产品需要花钱来测 PMF。一方面整个中国互联网流量板结了，都在巨头这。另一方面 AI 的能力有限，没有办法直接推到用户面前。这种投流导致的 PMF 成本上升，对这一代 AI 创业会不会是很大的挑战？

闫俊杰：我们在这个事上吃过亏的。你发现这个事在中国，和在美国非常不一样。比如美国的产品，ChatGPT 显然没有投流的，最早期的 Character.AI 也是没有投流的。偏工具的东西，比如像 Midjourney，它显然也是没有投流，更多的是运营。但是反过来说在中国，基本上所有的产品都会投流，这其实是非常明显的差别。

相当于说，美国公司更多的是靠技术能力和产品能力，大家都不会投流。但是这背后其实也是有代价的，代价就是美国的研发成本还是会非常高的。在中国反过来了，中国工程师的红利和产品的红利相对比较充裕的，但是中国的流量是头部聚拢的。

但是投流更底层的原因还是因为，目前为止在助手类的产品上，没有哪家公司能拉开差距。大家在同一个维度上，产品比较同质化，技术能力相对也是比较同质化的。为了获取更多用户，只有靠投流，这是目前这类产品的困境。

这个东西大家都会有一些解释，比如说有一种人认为获取 query（用户询问）是比较重要的事，如果把 query 本身的价值换算成钱的话，投流是值得的。就看你怎么看这件事了。在技术不突出的时候，这个东西就是没办法。

张鹏：我觉得你选择了某种「简单」，就是把技术做到最好、绝对的领先，这个世界也会变得简单。如果你不能在这件事上简单地领先，世界就会对你变得复杂。你也不会省下多少成本，没准成本更高，无非是押在这还是押在那。

闫俊杰：对，所以我们没有认为要花钱买用户的 query。

我觉得 PMF 这件事是这样的，一般创业的时候要写 BP（商业计划书）讲你的 PMF 是啥，我们其实一开始没有搞懂这件事，目前也没有写。其实我觉得可以做一些假设：核心就是类似这种产品，只要有用户时长就能变现。本质上，PMF 是以用户时长来量化的，这是比较标准的东西。目前这类产品是没有变现逻辑的，但是如果这个东西能做的更大，或者能够做到某个状态，是能够出来一些东西的。

张鹏：其实我觉得在不同的阶段，大家需要面对不同的东西，并不是说有技术的纯净信仰，就一定要做 PLG（产品主导型增长）、就绝对不要投流。我也想到当年滴滴在很多的城市都没有 PMF，都在烧钱，结果有一天它突然把用户习惯和产业逻辑烧出来了，PMF 出现了。你觉得 AI 行业会走跟当年网约车一样的路吗？

闫俊杰：我觉得不是，因为其实网约车是非常典型拥有网络效应的业务，如果你有更多的司机、你就会有更多的用户，反过来也是一样。

大模型产品目前为止没有网络效应，有可能有微弱规模效应。不过还是需要拆成不同的产品类型，比如效率类、娱乐类，单独来看。

比如单纯在效率类产品上，用户体验的提升主要不是看用户是不是变多了，其实主要是看研发速率、模型迭代效率。相当于说，你的技术能力提高跟你的用户数量增长，其实不完全成正比。但在星野这种娱乐类产品上，如果你有越来越多的内容，规模效应还是挺明显的。

张鹏：我觉得今天的创业确实比移动互联网那一代更加不容易了。今天你去投流，所有的流量基本上在巨头手里，甚至你的 PMF 在它面前都是透明的，因为你不断地投就说明你找到 PMF 了，它随时可以跟。创业者一直在打明牌，巨头钱多、人多，也有流量，你做产品测试还要给它们「交税」，这就是这个世界非常真实的真相，你作为创业者怎么保持自己的希望？

闫俊杰：这确实是非常关键的问题，而且是一个很本质的问题。

我觉得偏信仰层面是这样的。如果你没有做很多的技术创新、产品创新，或者说没有在合理的时间内找到足够的非共识，这个事就不应该你干，就是该被大厂干。这不怪大厂垄断。

我们要思考的是你作为一家独立的公司，你真正能创新的东西在什么地方？是研发效率、认知、产品体验还是什么？你如果没有，创业就应该失败，也不能怪别人。

张鹏：很务实的想法，大厂的竞争反而能验证创业公司是不是真的有价值。

闫俊杰：是的。不过国内的流量被巨头垄断，但海外的流量其实相对比较开放，至少很多市场可以自由竞争。所以我觉得虽然很难，但是空间还是存在的。

谈产品：

虚拟社交比智能助手受欢迎，

但 super app 可能并不诞生其中

张鹏：说到产品，MiniMax 也是国内 AI 产品做得最早、最好的公司之一，能不能介绍一下你们「星野」、「海螺 AI」这两款主打产品？它们的发展情况怎么样？

闫俊杰：「星野」基本是一个主打 fantasy（想象）的产品。你看它的时长、用户分布、包括留存数据，其实它很像小说类的产品。

像「海螺 AI」这种，我们叫它智能助手，但其实它是没有定义的。原因是目前这类产品最大的都只有 400 万 DAU，不能算很大的产品，不太能定义这个行业。

我们的 fantasy 产品算是做的比较领先的，就用户量来说，它可能比助手类产品要高个 100 倍。我们的助手类产品才刚起步。

张鹏：fantasy 产品这么好，它的交流轮次、使用时长怎么样？

闫俊杰：我觉得挺夸张的，是很长的时长。

张鹏：为什么当年你会做「星野」这种 fantasy 的产品？当年的决策逻辑是什么？

闫俊杰：两年多前我们创业的时候，大模型还不是共识。我们当时认为把人工智能做成通用、服务大众这件事是很重要的，而且恰好看到非常明显的技术拐点，所以就开始创业了。当时，我们也不知道技术会变成什么样、产品会变成怎么样、商业化会变成怎么样。

「星野」的前身是「Glow」，我们当年做「Glow」的时候既没有 ChatGPT、也没有 Character.AI。当年我们不是做了很多分析、发现了机会，决定要来做它。我们的产品都是撞出来的。

MiniMax 旗下娱乐类产品「星野」｜图片来源：MiniMax

张鹏：所以是先有了对 AGI 的信仰，做出了模型的能力，再顺着模型能力看能做啥就做啥，是这个逻辑吗？

闫俊杰：真实的情况是这样的。为什么这个产品最后变成了「Glow」了、没有变成 ChatGPT，是 2022 年 10 月份我们当时第一版的模型大概只有 30B（参数），它只能做娱乐的事，因为没有那么好。

张鹏：你得把 hallucination（幻觉）当作它的优势，而不是缺点。

闫俊杰：实际情况是，最开始的时候我们只有一个 pre training，对齐还根本没有跑通。所以这种东西是撞出来的，是非常随机的一件事，就变成这样了。

如果我们那时候更强一点，可能能做出来 ChatGPT，但是很遗憾，那个时候能力就是没有那么强。

张鹏：创业归根到底还得看实际状况，当时你技术没准备好，做不出来很正常，这反而说明了为什么技术是 AI 产品最重要的部分。

闫俊杰：对，因为技术的发展就是有红利的。

张鹏：现在你们有了「海螺 AI」，是不是还改过名字？我记得去年你们还叫「海螺问问」？

闫俊杰：的确是，我们改名是想让产品更加大众化。首先，我们觉得「海螺问问」有 4 个字，减掉两个字之后，「海螺 AI」的用户覆盖率会更高。其次，我们发现用户更深层次的需求不完全来自于问答，所以叫了这个名字。

张鹏：更深层次的需求不只是问答，所以那时候你们已经开始往未来的「智能助理」方向做思考了吗？

闫俊杰：是的。

张鹏：随着 GPT-4o、Astra 的发布，「智能助理」这个领域可能会有越来越多竞争者，你怎么看这类产品的发展目标？

闫俊杰：这类产品核心的东西应该就是一个，提升用户解决问题的效率、或者说回复的满意度。

我们客观来看，比如你问 ChatGPT 一个问题，它有多大概率给你一个满意的答案？我们自己的测试结果是，只有 60%。这也是为什么 AI 的用户渗透率只有 1% 的原因。可能只有对 AI 特别热忱的用户，在它给了你无数次错误答案的时候，你还能选择相信它、容忍它、甚至引导它来得到一些答案。

举个例子，我们用更大用户量级的产品，比如百度搜索、小红书搜索、甚至抖音搜索的时候，大概率能得到想看到的东西，满意度显然比 60% 高。只有这样，产品才能走向更广大的用户。

这也是作为从业者来说，我觉得 GPT-4o 没有让我觉得那么好的原因。因为它其实并没有提高这类产品真正重要的指标，也就是用户满意度。这个指标如果从 60% 提升到 90% 甚至更多，它就能变成可以信赖的产品。这也是我们在「海螺 AI」这个产品上要努力的方向。

张鹏：我相信最终你们的目标还是想创造 Super App，或者用 AI native 的方式解决主流用户的大问题。你觉得今天不管像「星野」、还是像「海螺 AI」，它们会是 Super App 的侯选吗？还是说我们今天未必能看到 Super App 的最终形态，它会像你说的，随着未来技术的发展随机涌现出来？

闫俊杰：其实我们的基本假设是这样的：第一，现有的产品都不是。第二，我们认为现在的单个产品都能够长到足够大的用户规模，能给用户带来更大的价值，也能为我们带来商业上足够的成功和回报。这也是我们努力的目标。

至于说现在的产品到底是不是最终那个 Super App，我觉得其实是不重要的。为什么？因为 AGI 是一件长周期的事，显然不是 2024 年或者 2025 年就实现的，我们其实不需要给自己特别大的压力。

我们真正需要做的事是，让技术能够足够快地进步，同时基于当前技术能力做出的产品，能让公司的运转效率变得更高、能给用户创造一定的价值、能给公司创造商业回报。同时，我们还能有能力做更多的产品，一代一代往上滚，这就已经够了。

美国公司不一定是这样的路径。但作为一家中国公司，这至少是有先例可寻的一条路径。

*头图来源：MiniMax

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO

直播预告