对话昆仑万维方汉:信不信仰不重要,做出东西来才重要
AIGC 会让内容行业重新洗牌。
文丨王与桐
编辑丨程曼祺
做一家既不是巨头、又不是创业公司的中型公司,是什么感觉?昆仑万维董事长兼 CEO 方汉说是 “习惯卷了”,因为中国没有腰部公司,只有巨头和长尾。
今年 50 岁的方汉看起来比实际年轻,他有工程师羡慕的浓密乌发,说话像连珠炮,对亲历过的激荡互联网历史如数家珍。
1995 年,刚从中科大近代物理系毕业的方汉在中科院高能物理研究所工作,他在这里开始上网,中科院计算机室副主任许榕生在 1993 年建起了中国第一条互联网专线和第一个 Web 服务器。
和很多第一代上网者一样,方汉信奉互联网应开放、自由、去中心化,他是开源操作系统 Linux 的第一代中文核心作者之一,此后又研发了国内第一款 P2P 下载软件和第一款商业化 的 P2P 流媒体播放器。
2008 年,他加入了周亚辉刚刚创立的昆仑万维。这位见证了局域网到互联网的资深网虫,此后与昆仑万维一起经历了互联网到移动互联网的多轮大战,历任昆仑万维副总经理和 CTO,2021 年开始担任 CEO。
16 年来,眼见大小巨头在身边崛起,没站上江湖之巅的昆仑万维曾经信奉一套自己的哲学:不轻易进入红海,不和巨头正面竞争。
短视频、头条类的新闻推荐应用和打车,昆仑万维都做过,但都因为判断烧钱也烧不出结果而退出竞争。在国内移动互联网曾经杀成一片红海之际,昆仑万维的主要市场早已转移到海外,在东南亚,在非洲,去全球淘金。
“字节的人觉得开罗就够苦了,我们在尼日利亚,差点得了好几次疟疾。” 方汉说。
但在 2020 年,方汉看到了 AIGC,即 AI 生成技术。
方汉说他第一次体验 GPT-3 就像 1995 年第一次玩 MUD(多人即时虚拟类游戏):“MUD 衍生了网易的第一个产品《天下》,《天下》衍生了《大话西游》,《大话西游》衍生了《梦幻西游》,《梦幻西游》是网易最赚钱的产品。当时我特别震惊:还有这么好玩的网络游戏!
2020 年我玩了 GPT-3,简直就像是个真人,那时候给我的震惊就跟 1995 年时一模一样!”
方汉判断,内容行业一定会被 AIGC 重新洗牌。他认为这能实现中型互联网公司昆仑万维的夙愿——成为巨型互联网公司。
自 2020 年起,昆仑万维从文本大模型做起,陆续做了音乐生成模型和文生图模型等。
“那时候大家做 AI 都是 BERT 路线(Google 最初做大模型的路线),行业里根本没有 GPT 路线的人,想 ‘套壳’ 都没法套,只能自己搞。” 方汉说。
两年之后,在 2022 年春节的 7 天假期里,昆仑万维的核心管理人员聚在一起开战略会,复盘、碰撞、推演,最终明确了一件事—— All in AIGC。
同年 12 月,ChatGPT 刚上线一个月后,昆仑万维就发布了 AIGC 模型系列。2023 年 4 月,昆仑万维又发布天工 1.0 大模型系列。
方汉现在推演的终局是:AIGC 做大的可能性在于做 “免费 C 端产品”,中期通过 AI UGC 平台完成商业闭环,终期是终端 AI 手机的全面普及,推理成本成为用户购机成本的一部分。订阅模式和 to B 可以赚钱,但规模会小一个量级。AIGC 超级 App 3-5 年内就会跑出来,因为那时主流人群已换上了能支撑大模型的新手机,这个过程中,更高效、便宜的端侧推理是关键。
今年 4 月 17 日,昆仑万维发布 4000 亿参数的 MoE(混合专家系统) 大模型天工 3.0 ,它集自然语言处理、计算机视觉、多模态、AI 搜索和 AI 智能体于一体,而且是昆仑万维首次开源 MoE 基础模型。
昆仑万维看重经营效率,每一个业务都要衡量 “吃水线”,昆仑万维创始人周亚辉甚至一度每个季度都要点数服务器,考察成本。但对大模型,方汉说 “买卡就花了 8 个亿”。
截至 2023 年 9 月,昆仑万维的现金及等价物超过 16 亿元。近 3 年,昆仑万维的年营收保持在 35 到 45 亿元的水平。用 8 亿元买卡是大投入。
这家成立于 2008 年,从多轮互联网热潮中存活的中型公司,决定背水一战。
以下是《晚点 LatePost》与昆仑万维董事长兼 CEO 方汉的对话:
想变巨头,AIGC 是重上牌桌的机会
《晚点》:音乐生成产品 Suno 三月底上线,Udio 四月初上线,最近昆仑万维也发布了音乐生成产品 SkyMusic,这么多产品扎堆发,你是什么感受?
方汉:行业竞争非常激烈。我们此前内部测试时,SkyMusic 在中文指标上已经 Beat Suno 了。Udio 是 Google 出来的人做的,现在也完全 Beat Suno 了。
《晚点》:昆仑万维过去的哲学是不要去红海竞争,做巨头看不上的生意,现在却一头扎进竞争激烈的 AIGC。为什么?
方汉:竞争激烈并不代表是红海。原来的红海是指,大家技术差不多,都可以迅速在某个领域做产品创新。但这一波不太一样,大模型会重塑所有行业,翻出来的机会太多了,蓝海太多了。
一开始我低估了这一波 AI,以为它只会颠覆内容行业。现在我认为它将超过互联网跟移动互联网两波大浪潮,AIGC 直接把内容生成方式改变了。未来所有的消费电子、所有的行业都有机会被重做一遍,机会太大了。
《晚点》:所以 All in 也是因为如果不做,昆仑万维本来的业务会被洗牌?
方汉:这我倒不是特别担心,因为我们已经在很多海外国家布局了很多业务。
但说实话,作为一家中型互联网公司,唯一的梦想就是成为巨型互联网公司,所以一直在找第二曲线。
2020 年时,我们面前有三个选择:VR/ 元宇宙、Web3 和 AIGC,最后我们选了 AIGC。
《晚点》:怎么选出来的?
方汉:我们认为前两个最后都没有 AI 大。
首先 VR 上限比较明显。我们的手表是 70 克,手机是 300 克,我们能携带的设备的重量非常有限,而当时 VR 设备都是 1.5 公斤的,苹果 Vision Pro 现在做到了 800 克,还是重。VR 设备的市场太小了。
元宇宙是从娱乐内容的角度看,我们认为所有娱乐内容产品本质都是拼两件事——激素生产的频率和幅度。短视频已经把频率做到了极致,它生产多巴胺的频率是 13 秒一次。
Web3 是过于理想主义了,过于理想主义的产品最后都不会被大众接受。
AI 要大得多。我是 1995 年开始上网,玩的第一个游戏是 MUD,MUD 衍生了网易的第一个产品《天下》,《天下》衍生了《大话西游》,《大话西游》衍生了《梦幻西游》,《梦幻西游》是网易现在最赚钱的产品。1995 年看到 MUD 时我特别震惊:还有这么好玩的网络游戏!
我 2020 年玩了 GPT-3,当时让我大受震撼——这跟我 1995 年的感觉是一模一样的。
当然我是从技术角度。周总(周亚辉)商业触觉非常灵敏,他立刻预判内容行业会被全部洗牌。
《晚点》:洗牌会如何发生?
方汉:AI 要分成 AGI 通用人工智能和 AIGC 内容生成。2020 年我们选择 All in 的是 AIGC,后来是 AGI 和 AIGC。
AIGC 内容生产最可怕的是降低了所有内容创作的门槛。这个变化可以类比手机摄像头出现以后,视频创作门槛一下低了几倍,原来拍电影要各种工种配合,中国打灯的人可能都是一个村的,现在人人可以拍短视频。
内容行业的规模还与多元性紧密相关。当一个语言的使用人数低于 5000 万时,养不起自己的文化产业,只能接受强势文化。印度有 30 多种语言,有 10 种语言的使用人数在 1000 万以上,但因为说印地语与英语的人最多,所以所有印度电影只有这两种语言。但 AIGC 把门槛降低后,会促进文化平权,各种长尾的亚文化族群都会生产内容。
生产内容的门槛每降低一倍,创作内容的人数增长十倍。
《晚点》:昆仑万维要做什么去抓住它?
方汉:我们 2022 年考虑 AIGC 的终局是什么?这里面绕不开的话题就是 Google、字节这样的巨头会做什么。
刻舟求剑地看,互联网和移动互联网那波,最后起来的全是 “免费 +C 端” 模式,首先要免费,第二要 C 端。订阅模式会小一个量级。全世界能付得起 OpenAI 每个月订阅费的只有 1 亿人,剩下的 79 亿人怎么办?
但现在大模型推理成本太高了,想要完成商业闭环,我们想了三种路径:第一是通过模型优化把推理成本压低,压到低于广告收入就能打平。第二是 AI UGC 平台,我们给 1% 的内容创作者提供服务,99% 的用户消费内容。第三是 AI 终端,这个我们判断是大模型的终局。
还有一个规律是:巨头递减。互联网起来时,传统企业看不上互联网业务,互联网企业长得很大之后反过来把传统企业都干死了。但到移动互联网兴起时,第一波互联网留下来的巨头 BAT、Google 占了很多坑,导致移动互联网的新巨头就比较少,中国是字节、美团、滴滴,美国可能就一个 Uber。现在巨头还尤其有个好处,谁有卡谁牛。
所以我们估计 AI 这一波,巨头还要递减, 国内会新长出两三家,美国有两三家。
《晚点》:巨头递减的趋势下,想变成巨头岂不是更难了?
方汉:移动互联网时代有两个特别好的例子:为什么巨头林立的现在,B 站、小红书还能活得特别好?是因为这两家在垂类做到极致,再去泛化。小红书是美妆、穿搭起家,泛化到线下的酒旅;B 站是从二次元泛化到中视频、长视频。
另外还有一个判断,就是刚才提到的文化平权。内容创作成本降低后,每个语言都需要自己的一套产品,这时 AIGC 平台就能在全球得到红利。
综合来看,我们的机会一是做可以泛化的垂类,二还是做全球市场。
《晚点》:这个垂类具体是什么?
方汉:可能是偏网文、短剧、动画的 IP 创作。
《晚点》:所以你看到的还是娱乐性的机会。
方汉:肯定是偏娱乐的。娱乐是有价值的,人类除了繁衍基因,就是获取快乐,不然人就崩了。我是学核物理的,所以我说话特别社会达尔文主义,不好意思。
《晚点》:你不看好用 AI 做生产力工具?
方汉:看好。to B 是容易挣钱的,但很难做成巨头。
互联网、移动互联网巨头,从 to B 起家的有多少?有一批中型的、能挣钱的,Salesforce、Adobe 之类的,但都比 C 端小一个量级。
《晚点》:微软是 to B 起家的巨头,它只是特例吗?
方汉:微软也很难定义为纯 to B,微软面向个人操作系统起家,面向最终用户居多。
《晚点》:免费 +C 端的终局,前提是大模型也有边际成本递减效应,但现在服务每个用户都有推理成本,还不便宜,成本也不能显著递减。
方汉:广告收入大于推理成本时,这个商业模式就成立。我觉得这会发生,但很难判断何时发生,因为现在模型能力还在飞速增长,GPT-3.5 免费了,大家又都想用 GPT-4,不断增长的模型能力和不断降低的推断成本,双方还在互相拉扯。
比较确定的是,我们认为端侧推理一定能萌发巨头。就是直接在手机上跑大模型,3000 块买手机等于买了个卡,把大部分推理成本直接覆盖了。
当然,现在端侧推理肯定还远不如云侧推理,端侧只能推 7B 到 13B 的模型,但我认为三到五年后端侧大概能推 70B 的模型,到时在手机上跑 GPT-4 没有问题。
《晚点》:为什么是三到五年?
方汉:因为全民换 AI 手机大概要三到五年。而且手机现在卖不动了,所有手机厂商、芯片厂商也都在找新噱头,会全面转向 AI。
那时在手机上可以做很多事情,而且天然满足了免费和 C 端这两件事,就会出现一个巨大的蓝海市场。所以端侧加云侧混合推理会是 AIGC 竞争的发展方向。
《晚点》:那等模型能力和 AI 手机都 ready 后不是更好的发力时机吗?
方汉:你不能等到那时再创建公司。我有时开玩笑说,最好的 AI 公司应该是 2023、2024 年就创建完毕了,到 2026、2027 年开始成为真正的巨头了。
《晚点》:中间这 3 到 5 年,你们做什么?
方汉:我们做内容创作平台,1% 的创作者用 AI,99% 的消费者不用 AI。绝大多数人没有创作内容的兴趣,全中国 9 亿人刷抖音,也就几千万人愿意拍吧。这样把成本直接砍了一百倍。
大量 IP 靠小说和漫画生产,在影视和游戏里变现。《斗罗大陆》最早在起点中文网连载,后来被改成漫画,火了,腾讯视频又把它改成动画,又火了,最后拍了电视剧,又做了很多网游。《指环王》《哈利波特》《漫威》都是类似逻辑。
中国的小说作者最多,个人过去做不了影视、动画、漫画,但 AIGC 把门槛降低了。而我们全链条能力包括小说生成、漫画生成、影视生成和音乐生成,这形成了昆仑万维的商业闭环。
《晚点》:你之前说做小公司有很强的不安全感,做 AIGC 后,不安全感缓解了吗?
方汉:还是不安全,别人十万张卡,我一万张卡,我能安全吗?实话实说,这是最大的不安全感。
但我们很有动力,因为大公司钱赚得太舒服,他们对 “难挣的钱” 兴趣不大,所以大公司的创新速度是跟不上小公司的。这也是中国很多大公司出海,最初都做得都不好的根本原因。
《晚点》:如果这一次第二曲线成功了,昆仑万维会变成什么样?
方汉:我们梦想变成更大的公司,去年收入是 48 亿,我们至少收入先干到 500 亿,到 1000 亿。这是我们的目标,然后再往后说,想象都没用。
本来都觉得没有上赌桌的机会了,AIGC 又给了我们一次上桌的机会而已。
《晚点》:为什么对变大这么执着?
方汉:因为在中国没有腰部企业,只有头部和尾部企业。
从不想烧钱到大投入
《晚点》:昆仑万维创始人周亚辉认为创业公司做大模型没有机会,他说 Antropic 最好的出路就是现在卖给亚马逊,越晚越不值钱。你是怎么想的?
方汉:首先技术一定会泛化、白菜化。现在算法工程师可能四、五百万一年,我相信不到五年,就不会这么贵了,因为技术会逐渐扩散。OpenAI 把 GPT-4 的机密保守了两年多还是挺牛的。
长期来看大公司的优势主要是卡。2022 年时我们就觉得卡太贵了。当时上线做个实验,卡都费好多钱。在美国谁有百万卡谁牛,在中国谁有十万卡谁牛。
《晚点》:中国谁有十万卡?
方汉:字节、阿里?创业公司谁也没有。
《晚点》:你觉得大模型创业公司有独立发展的机会吗?
方汉:太多因素了。以中国人的创业能力,机会仍然是有,只是说不一定是纯大模型公司,我更认为未来他们会从大模型转成基于大模型的超级 App。大模型最后都差不多。
《晚点》:就是以技术起家,但最后的壁垒不能是技术。
方汉:是商业模式。
《晚点》:昆仑万维作为中型公司,资源比大公司少,但是不是比创业公司多呢?现在头部大模型创业公司的累计融资在 10 亿美元量级。
方汉:这是长跑。我们对商业价值的思考也是优势,你看我们在海外这么快就能打平,是因为经验不一样。做 App 的人,跟做算法的人不是一拨人。
《晚点》:2022 年初你们内部就开始讲 All in AIGC,同年 12 月你们发布了 AIGC 模型系列,比大部分创业公司早。这带来了什么?
方汉:我们 2021 年就已经训了 13B 的模型。当时觉得能追上来 GPT 了,我们还做了聊天机器人。当时只是觉得很好玩,模型没有对外发布,但我们一直在研究。
当时已经开始买卡了,到 2022 年中,我们买了更多的卡,到了千卡级别。2022 年底,我们觉得不行,必须得到万卡。
我们买卡比国内其他公司更早,所以我们现在才能在第二线的公司里面有最多卡。
《晚点》:在已经有游戏、社交平台等产品的情况下,All in AIGC 资源如何分配?
方汉:AI 的投入就是人和卡。一开始把最好的人调去做 AIGC,之后投入钱开始买卡,我们买卡就花了 8 个亿。
《晚点》:AIGC 和你们的已有应用,比如 StarMaker (一款基于 K 歌的社交产品)等产品怎么结合?
方汉:AI 技术外露一点给 StarMaker 就可以做一波大增长,我们以前吃到过类似的红利。
StarMaker 当初为什么能起来?之前 K 歌产品都拿不到伴奏带,那谁把人声分离做好,谁就能抢占市场。我们买了版权,又用算法把人声分离做到了全球最好,就受到一部分用户喜欢。AI 作曲也类似,我们肯定能吃到红利。
《晚点》:过去的积累对你们做 AIGC 的帮助是什么?
方汉:数据和经验。还是以 StarMaker 举例。我们把全世界 BGM 的人声分离都拆出来了,这就是别人都没有的训练数据。国内有这个能力的、音乐数据最多的,只有字节、腾讯和我们三家,只有要做 K 歌软件的、要给短视频配音的会去研究这个技术。
再比如我们原来做游戏,所以我们做 3D 生成就更有经验。
为什么在 3D、音乐领域中国人能冒出来?因为这个领域数据太少了,只要数据到顶,中国劣势就不明显。
《晚点》:相比新公司可以完全搭建新组织,昆仑万维现在要同时兼顾做已有成熟业务的团队和做 AIGC 的团队,怎么平衡新老团队的管理方式、激励方式?
方汉:AI 人才贵都是市场化的定价,员工对此是有认知的。
管理跟组织上,要尽量扁平化。我们一直的原则是高管必须深入一线,“让你的手变脏” 是我们生存的基本要素。
而且如果以结果为导向,结果包括老业务的商业结果和新业务的算法结果,新业务跟老业务就没有差别。
《晚点》:做大模型投入巨大,但昆仑万维以前不喜欢烧钱,2018 年前,周亚辉每个季度都会点服务器。你们现在做 AIGC 会更愿意投入了吗?
方汉:创业公司是纯融资、纯烧钱的,但我们投入还是可控的,并且钱的来源多,长跑能胜出。
第一,我们有几块比较大的现金流业务,一年有大约15亿的现金流。第二,我们历史上储备的现金比较多,比如 2018 年 6 亿美元卖掉 Grindr。现在我们追求为将来的终局提前做准备。
《晚点》:你觉得在 AIGC 方向上出现什么情况,放弃可能是明智的?
方汉:评判标准不是钱烧多少,而是如果不在第一集团,可能就没有必要接着做下去了。只要在第一集团,我们还会继续烧钱。
最坏的情况,2027 年我还是个二线公司,不会比现在更坏了。
多模态是对世界的压缩
《晚点》:天工 3.0 是 “能搜、能写、能读、能聊、能听、能说、能画、能看、能唱”,这背后是多个模型。同时做这么多模型,会不会资源分散?
方汉:其实还好,因为我们是一步一步来的,先做文本再做音乐,再做文生图,现在也在做视频生成。但是所有多模态都依赖于很好的文本大模型,文本大模型是技术的底座。
《晚点》:所以你们最大的精力是放在文本?
方汉:肯定是文本大模型,60%-70% 的卡分配给文本模型。
其他地方需要的资源也少。内容生成的项目其实花不了那么多卡,文本大模型已经到十万卡了,一万卡是基本线。Sora 据传训练资源是 4000 张卡,才 8B 的模型。音乐模型千卡都已经是很奢侈了。
《晚点》:只要算力够,你们也能做出 Sora 同样的连贯性和视频时长吗?
方汉:对,Sora 真没那么难,中国很多公司能追上,不光是我。
为什么追 Sora 比追 GPT-4 容易得多?因为视频生成现在的主要瓶颈是数据不够,Open AI 更多卡的优势也发挥不了。
《晚点》:你怎么看王小川说百川不做 Sora,要专注做大语言模型?
方汉:实现 AGI 是一定要做多模态的,但视频生成跟多模态确实是两回事,现在很多人搞混了。
多模态是要理解世界。所谓通用人工智能里 “对世界的理解”,本质是一种压缩,把文本压缩完,就必须去压缩视频、音频等等,这就是多模态。OpenAI 文本训练数据不够之后,把 YouTube 几百万小时的视频转录成了文本,拿这个文本去给 GPT 训练。
但 Sora 只是生成。训练 Sora 的过程,OpenAI 是先拿一堆视频用 GPT-4V 打标,把视频用文字详细描述行为、场景、物体、镜头轨迹、光线,然后进行大模型训练,最后根据用户的输入,扩充为详尽的描述,再生成视频。
也就是说真正理解视频,把视频动作和文字描述关联的是 GPT-4V。所以我不认为 Sora 是理解物理世界,真正理解物理世界是靠 GPT-4V 这种多模态大模型能力的增长。
Sora 是 AIGC 的赛道之一,它是 AGI 的副产物,但不是 AGI 的重要里程碑,把它吹成是理解物理世界,我觉得太扯了。
《晚点》:你们把天工大模型系列称为 “超级模型”,这个超级就是指多模态吗?
方汉:超级是指多模态,多模态是通向 AGI 的重要部分。
多模态就是对视频和音频等数据的压缩,文本大模型是对文本的压缩;大模型本质上就是对人类知识的有损压缩,推理是展开。
多模态还有一个好处,在理解视频、音频后,大模型能接入更多更有用的场景。如果你不做多模态,就做不了自动驾驶,也做不了机器人。
《晚点》:AGI 也是你们的目标吗?还是 AIGC 才是?
方汉:AGI 肯定是我们的目标。但我总得先活下去吧,AIGC 让我们先活下去。
如果 AGI 能够取代人类在科学研究上的能力,那么整个人类社会就会前进。当然在内容领域,AI 也会推进娱乐,“娱乐致死” 嘛,只是对人类文明来说没那么关键。
真正 AGI 的奇点到来,是上一代的大模型能够自动训练下一代的模型。但这有很多的限制,比如电力、算法、数据。
《晚点》:你之前提到,在垂类赛道 Scaling Laws 已经停滞了,这意味着我们通向 AGI 的速度在变慢吗?
方汉:一方面是因为垂类赛道的数据少。视频数据比音频数据多,音乐赛道已经算多了,全世界有 4000 万曲子,3D 模型生成赛道,全世界的数据只有 1000 多万,优质的数据只有 200 万。
另一方面,一旦技术接近天花板,技术优势将不再明显,就能够靠产品、靠用户取胜。假设某垂直赛道第一名是 80 分,新产品 90 分也很难把原来 80 分产品的用户都抢来。但如果原来第一名是 40 分,新产品是 80 分,就能把所有用户抢过来。Sora 就是在别人 40 分时做到了 80 分。
很多领域已经到了 80 分阶段,比如文生图。DALL-E3 出来得比 Midjourney 早多了,但 Midjourney 到了 80 分后,没人再用 DALL-E3 。DALL-E4 我相信肯定比 Midjourney 强,但强得有限,因为现有产品已经够用了,所有工作流也都形成生态了。
再比如音频赛道,最好是的 Eleven Labs,OpenAI 刚刚发了做声音克隆的 Voice Engine,但没人关注。为什么?外面开源的都不比它差了。
技术接近天花板之外,人类的需求也不会无限提高。就像电池续航,800 公里之后就没有必要再卷资源去搞 2000 公里了。
《晚点》:中国公司现在要在更少的资源下,继续推进通用大模型的 Scaling Laws,你看到了什么可能性?
方汉:下一步首先是扩充计算资源,然后用非常创新的算法来优化,同时对数据处理提出更高要求。
基座模型需要的文本数据目前总量已经不够了。我认为大方向是 Self-play(自对弈)和合成数据。Self-play 就是 AlphaGo Zero 自己和自己下棋形成数据,合成数据包括 3D 引擎生成视频数据等。我们也会在这方面持续开展工作。
《晚点》:除了多模态能力外,这次天工 3.0 的升级还有优化了 Agent 能力?你怎么定义 AI Agent?
方汉:在模型能力还不够发达时,Agent 能放大模型能力,更好地和实际应用场景结合。
比如我想把你的头发抠下来接到我的头上,用 Stability 文生图模型可能不知道怎么弄,但我现在在网上抄一个高手写的工作流,里面用了好几个 Lora,再结合 Stability,就能把你的头发拼到我头上,它就是一个完成固定任务的 Agent。
《晚点》:天工 3.0 的 Agent 可以做什么?
方汉:天工 3.0 的底座模型的逻辑能力得到了很大的提升,让我们的 Agent 更加鲁棒,更加智能,这其中,大模型的逻辑推断能力很关键的,它必须告诉 Agent 第一步、第二步、第三步怎么做,一旦中间有一步错了,整个能力就变差了。
现在普通用户就可以用我们的平台自己捏 Agent,或照搬别人的,就好比我们玩游戏时看别的高手写的攻略去执行。
《晚点》:天工 3.0 是一个 4000 亿级参数 MoE(混合专家模型)模型,为什么选择做 MoE?
方汉:我们是 2023 年 4 月开始开发 MoE 的。不做 MoE,文本大模型指标怎么能逼近 GPT-4?
现在行业都认为 GPT-4 用了 MoE,而且很多人都猜出来了规模,并不大,但效果非常好。MoE 本身是一种降本增效的做法。
《晚点》:开发 MoE 的过程曲折吗?MiniMax 创始人闫俊杰说他们最初开发 MoE 感觉像豪赌,失败了两次。
方汉:算法其实并不难。你看 OpenAI 的所有论文,算法都公开,而且绝对不骗你,但从来不说数据怎么弄的。所有的 Trick 都在数据侧和具体的训练工程侧,不是算法侧。
“中国像个工厂,美国像个 office,世界上其他地方都像农村”
《晚点》:你之前是中文 Linux 的创始人之一,你对开源比一般人的理解要深刻。这次天工 3.0 有一个比较大的变化是基础模型开源,为什么这样决策?
方汉:开源在中国没有什么好处。除非你做 To B,开源让大家试用,这样可以获得大量销售线索。
开源一开始在美国真的是一种嬉皮士文化的延伸,但到后来,尤其是以 MangoDB 为例,它基本上已经把开源做成了可以赚钱的商业模式,就是 SaaS、云托管服务。但开源商业模式只是在海外成立,在中国行不通,因为中国 SaaS 起不来。
开源更重要的是,把你的东西和别人比,这能提升整个公司的人才荣誉感。我跟原来阿里云第一任 CTO 章文嵩很熟,他在阿里推开源文化,对人才吸引力非常大。
《晚点》:刚才你也提到了全球范围内的文化平权,从昆仑万维在海外多个国家做了多个内容产品的经验来看,这会如何改变产品形态?
方汉:每个国家可能都有自己的小超级 App,或者一个超级 App 在很多国家,各自划地盘。
《晚点》:一个超级 App,是你们的目标之一吗?
方汉:我们肯定会进很多国家。
《晚点》:现在有什么目标地域吗?
方汉:先想做欧美,欧美用户性价比最高,接受程度也高。欧美、日韩跟中国算是 T0,中东、东南亚、南美算是 T1,非洲、南亚算 T2。
《晚点》:先去欧美,意味着先去竞争最激烈的地方,这好像又和你们之前的经验不同?
方汉:我们一直在做欧美市场,只是不怎么提而已。Opera GX Browser 发布也就 2 年多,目前在欧美地区 3000 万 MAU,原来 Grindr 也是主做北美市场。我们是根据各种因素来选择市场,目前 AIGC 带来的大洗牌以及推理成本因素对 ROI 模型的修正,让我们觉得欧美日韩市场是更好的选择。
《晚点》:做大模型和 AIGC 产品时,你观察到中外公司的动作有什么区别?
方汉:如果中国公司在海外做大模型,产品肯定是偏娱乐,因为娱乐方向的海外管制少、对中国的歧视少,但是生产力方向,中国企业在海外被歧视,产品再好也不受欢迎,所以做不了。
《晚点》:那海外用户和中国用户对 AIGC 产品的需求差别呢?
方汉:与经济情况紧密相关的。欧美经济情况好,更容易做订阅,经济情况没那么好的就更容易接受免费模式、娱乐模式。
提升生产力方面,中国很特殊。中国工业化生产发展好,最想提高的是实业生产效率,这是中国工业机器人很多,但是企业协作应用反而没那么多的原因。
中国像个工厂,美国像个 office,世界上其他地方都像农村。
《晚点》:之前的采访你说每周有将近一半的时间在看论文,看技术。
方汉:对,我天天看论文、拼命看论文就是为了判断产品方向。我们原来定战略,是靠我们的经验、得到的信息。现在这个方法不行了,现在技术跟产品是严重脱节,而且技术还每个月都在变,所以还得预测技术过六个月之后怎么样、我的产品该怎么样。
现在所有大模型公司 CEO 全是算法出身的,这是这一波 AI 的特点,但做算法的跟做产品的真不是同一拨人。我们公司 Leader 级别的都让懂产品的学技术、看论文,让懂技术的看产品,这样我们才能做出更好的决策。
《晚点》:昆仑万维想搭建什么样的大模型团队?
方汉:博士占 3 成,硕士占 5 成,本科占 2 成,这是我们内部定的死标准。算法是以博士为主,工程上以硕士为主。
我们招人过程中有个观察,就是现在最好用的是应届博士,而不是毕业了几年的博士。因为所有人都是在 2023 年才开始转向大模型 GPT 相关的技术研究,站在同一个起跑线上,之前都是做 BERT 的。毕业有工作的博士转得更慢,他们白天要做老技术,半夜回家才能研究新技术。
《晚点》:你们之前的全球布局,现在也是招聘人才的优势。
方汉:我们为什么在新加坡搞研究院?因为在新加坡招好的人更容易,有很多特别好的人愿意去新加坡。
《晚点》:团队补充了这么多年轻人,你也在读很多论文,怎么加速自己的学习速度?
方汉:主要靠压缩休息时间和不重要的工作。这波浪潮来了之后,我一天少睡了一两个小时,都用来学习各种前沿知识了。
并且我会用各种 AI 工具,比如视频转录、文本总结、PDF 翻译等,也包括天工搜索,这让我更快获取信息。跟团队年轻人交流也是一个渠道。
《晚点》:你是中国最第一批接触互联网的人,而现在 AIGC 领域的大部分对手都更年轻。怎么和理论上学习更快、体力更好的年轻人竞争?
方汉:年轻人的优势很明显,但我也有我的优势,就是不断跟业界最顶尖的人交流,获取质量更高的信息,同时不断深入思考。
勤奋和高效的学习习惯,是可以赶上 90% 的年轻人的水平。
《晚点》:见证过周期与历史,这带来经验也可能带来成见,你们现在对 AIGC 的很多判断是对移动互联网的 “刻舟求剑”,是否担心在旧经验上看不到、做不出新东西?
方汉:这种思考方式的确有可能带来各种成见,但是这种思考更多是从道出发。
从术的层面,就完全不能依赖过往经验,因为 AI 对所有产品都是重塑,老的产品模式和商业模式的经验是完全不适用的,所以要不断看第一线的竞争态势和产品趋势,不断修正我们的决策。
另外就是要放手让一线的年轻人去创新,不要轻易用历史经验否定他们,他们才是这一波的主力军。
《晚点》:昆仑万维当年不再在国内做游戏了,是因为你们判断最后只有网易、腾讯最大。但后来发现米哈游是个例外,可它不可复制,因为这群人是真热爱游戏,对游戏有信仰,而不仅是从商业角度考虑。现在这一波,你觉得是否有 AGI 信仰,对商业成功重要吗?
方汉:周老板肯定觉得重要,但我个人觉得这是个工程问题。工程问题就是有没有信仰不重要,你把东西做出来才重要。
· FIN ·
微信扫码关注该文公众号作者