一文解读:如何理解“大模型时代”的狂飙趋势?|投资笔记第162期
继《投资笔记》专栏之后,我们推出了全新的商业叙事类播客《投资笔记》。
我们探讨了最新科技领域的突破性进展与应用,分析了顶尖创业公司的产品力创新,分享了不同领域优秀的创始人们对于商业科技的思考与认知,来自投资人的视角:如何宏观地看到投资的趋势,如何微观地判断企业的潜力?
《投资笔记》播客第二季正在更新,如果你也对科技的发展抱有强烈的好奇心,对在商业世界中开疆拓土的故事充满热情,希望自己对这个世界的认知又变得更加深刻与宽广一点点,那么不妨打开电台,听一听我们为你带来的科技与商业世界的信号与电波,在小宇宙、喜马拉雅、苹果播客、Google Podcast等泛用型客户端搜索“投资笔记”即可收听。
欢迎收听本期投资笔记:S2E2 深度拆解大模型:投资人和创业者分别怎么看?
后疫情时代,虚拟场景的运用频率显著增加,尤其是演唱会和发布会等大型活动。虚拟场景由重新建模的虚拟画面组合而成,可以让表演者在任何环境下演出。
如果说在过去的半年中,全球的科技行业中有什么风口是如同乘上了火箭速度般一骑绝尘的,那么非「大模型」莫属了。
创业者们已经站在了集合的十字路口。抛开他们的上一个身份——比如,从业几十年的相关科学家、刚刚离开象牙塔的博士、各大互联网巨头的技术业务负责人,如今他们的身份都是:大模型创业者。
大模型创业赛道似乎已经迎来新一波「群星闪耀时」。大模型奠基之作、也就是Transformer论文的八位作者,到2023年7月,已经全部都离开了谷歌,选择自立门户投身创业——并且基本是一离开谷歌就能拿到顶级投资者的支持。中国的大模型创业名单里还有不少明星创业者的公司,比如创业工场CEO李开复在年初上线的公司「零一万物」,前搜狗CEO王小川的「百川智能」,前京东AI掌门人周伯文的「衔远科技」等等。
大模型狂飙的背后,我们要如何理解它短期内产生的热度,和长期可能带来的影响?支撑大模型运作的要素是什么?而在大模型创业潮似乎席卷了每个科技从业者的当下,站在不同视角的投资人和创业者,他们又是如何理解这一趋势的?
AI与大模型的进化历程
罗超
我们今天之所以会对大模型感到振奋,一方面是因为语言大模型所展现出来的表达能力、知识容量以及提炼能力让很多人叹为观止,另一方面是因为在图像生成和一些素材创造方面,大模型正逐步释放大量生产力。所以如果简单来说我们如何看待大模型,我认为它给了全行业甚至是整个人类文明一个很重要的信号,就是这条路线具有长期且深远的价值和产出潜力。
尽管时至如今,大模型这个概念正在逐渐祛魅,市场也逐渐回归理性,但国内外的大厂与创业者仍然没有放弃追逐风口。Meta、华为、京东、科大讯飞、字节等公司都持续有大模型研发的新动态,而回归「大模型」的价值本身,在流量与资本红利之外,人们更看重的,或许就是罗超说的——它给全行业乃至整个人类文明的重要信号,这条路线本身是有长远价值输出的。
让我们回到大模型诞生之初,把它放到一个更大的范畴里看——也就是AI。
最早不被看好的OpenAI通过ChatGPT的成功把大模型的训练成果带入大众眼前,而创始人Sam Altman曾经说,如果你觉得你已经懂了AI对人类社会带来的影响,那你大概率是没懂,而且需要再更多地研究一下。如果你觉得你已经搞不懂AI了,那你才是真的懂了。
这背后对应的一件事或许是,作为AI应用分支的大模型,它所涌现出的能力远远超出人们对它的常规预期,而未来甚至可能超出更多。新一代的AI可以说是「任何人都能以最低的门槛使用它们以提高生产力,或者完成创作」。
那么,这种能提高生产力的新一代AI是如何一步步走到今天的?
我们都知道最早的AI概念是上个世纪由图灵提出的,同时代的另一位科学家冯·诺依曼提出了一套电子计算机通用架构,可以说是现代意义上的AI雏形,这套架构也沿用了几乎七十年。
此后的划时代事件是1997年,当时IBM的机器人深蓝打败了国际象棋冠军卡斯帕罗夫,在全球范围内引起了轰动;不过当时的AI是基于logic也就是「逻辑」的——简单来说,当时的电脑遵循的基本是“If...then”的逻辑,人类给计算机输入大量的规则和逻辑,计算机在面对问题的时候,根据设定好的逻辑法则,检索知识库或是推演来找到答案。本质上,机器并不具有自主学习的能力,而且人类能够为机器输入的逻辑法则是有限的,也无法做到无限地穷举所有可能性。
在这之后,「机器学习」和「深度学习」的概念出现了,但更多是落在研究层面的。真正迎来爆发之前,业内经历了大大小小的众多突破性时间点——比如2006年,英伟达推出了革命性的统一编程软件CUDA,降低了GPU的应用门槛;2009年,斯坦福的计算机科学家创建了ImageNet,用于训练计算机视觉算法。
深度学习的真正爆发是2012年。这一年的关键词是名为AlexNet的深度神经网络。当年的大规模视觉识别挑战赛上,获胜的冠军第一次使用了这种深度学习架构,图像识别正确率达到了84%。对于大众来说这意味着什么呢?——当今我们已经习以为常的图像搜索、看图识别等功能,某种意义上就是由AlexNet奠定了基础。所以如果我们回看2012年的《纽约时报》,11年前的主流媒体才刚开始为「机器也能够精准识别图片」这件事感到惊叹。
2012年后,包括计算机视觉在内,还有语音识别、自然语言识别,这类「识别型AI」一度风头无两,且被寄予厚望。但在2019年,AI繁荣一度戛然而止——当年的AI融资金额比起2018年几乎缩水了一个0,AI初创企业的数量也大幅缩水。当时的一个门槛就在于,识别性AI大多采用的是专门为特定任务训练的小模型,但它很难在更大范围内解决多个不同的问题。在落地应用时就带来了问题:没有通用型的AI,一个需求需要定制不止一个AI,而这么做成本太高了。
徐串
上一代产品之所以会采用俏皮的态度来回答用户的问题,是出于产品形式上的需要。因当时的技术还做不到对所有问题都给出正确的答案,这是只有模型达到一定规模后才能去做到的事情,既然做不到,那么就要在产品形式上采取一种更容易被用户接受的方式,比如俏皮或油腻,以掩盖模型在能力上的不足。
因此这是产品选择而非故意如此,这样用户可能会把它看成小孩,而大人对小孩总是宽容一些。如果它一本正经地回答,你会觉得不行,相反它用这种语调来回答的时候,你会感觉还可以,好像它能理解你的意思,这都是之前技术的限制。
为什么大模型这个概念特别火?我觉得是因为ChatGPT这样的产品使人们真切感受到大模型在体验上已经具备智能。我们并不认为AlphaGo具备思考能力,对于围棋的任何一个局面,它都能很快地计算出胜率,即这样走下去以后获胜的概率是多少,但它只是按照传统的办法查看后续几步然后找一个胜率最高的走法,而人类对于胜率的判断可能没有它准确,因此在水平上存在明显差距。
与此相比,我们认为ChatGPT具备智力,因为它展现出推理能力,能够按照有条理的思维逻辑逐步回答问题,甚至能够纠正用户的错误,这些都表现为一种智力,与AlphaGo的表现完全不同。
这是徐串。架构师出身的他,在2022年成立了一家初创公司,专注于人工智能平台的研发。在他看来,在参数达到一定程度、用了最基本的训练之后,大模型自己本身已经具备了问答的能力,而人类要做的是「如何把它激发出来」。
徐串
模型已经存储了许多知识,但人类语言表达相对复杂,需要通过instruction来训练模型。比如写好问题后,应该这么回答,应该分步骤,怎么用思维链的方式,这些都要全部输入进去,训练以后,它就自然地涌现出了这样的能力。
目前真正要做出一个这样的大模型,可能门票是10亿人民币。然后能不能做出来,还要看这方面的经验之类的,因为在训练模型的过程中会遇到很多的问题,就像有时候不收敛,有时候崩了,突然开始胡说八道了,怎么样训练,怎么样让它在各种反馈上更像人类的思考方式,这需要很细致的工作,没办法一下子就突破。因此,当前模型之间的差距主要在于时间积累,就像谷歌、OpenAI做的东西让人感觉有智能,但其他的公司总觉得有点差距,就是因为这方面的积累还不够。
另一方面,要让机器能够处理复杂的文本,达到甚至超越人类智慧的水平——资金量、算法、算力和数据规模都至关重要。这也就是业内常常说的,算力、算法和数据是做好大模型的三要素。
从算力角度来看,大模型对训练算力需求非常高,ChatGPT的公开数据显示,它的整个训练算力消耗如果折算成时间,按照每秒计算一千万亿次来算,也需要计算3640天。而算力的相关设备就是GPU芯片,行业内有人估算,ChatGPT硬件需求的最低门槛是1万块英伟达的A100芯片,算力的硬件投资规模达到10亿人民币。
罗超
今天要做好一个真正意义上的通用大模型,所需要的前期投入成本是非常高的,可能几千万美金只是一个入场券而已。这三件事情背后所对应的,就是你是否有足够的资金量、是否有足够的底层的科研人才和算法人才,以及是否有对应的场景所需要的数据,Know-How这些东西,来帮助你去完成好一个更完整的产品。
但在算力这件事情上,越有钱就越能够掌握更多算力,更能支撑起这么大的算力去做,所以它是倾向于更集中。算法这件事情,其实全球目前来看,虽然还是有一些小的细微差别,但是在大模型这件事情上,大家的认知和算法的起点是高度一致的。在这种情况下,算法上其实拼的是人才,而人才又会倾向于集中,因为理论上越多的优秀人才聚在一起去为一个大模型服务,产生的效能一定是很高的。
大模型是只有巨头才有入场券的游戏吗?
对资本的要求,多少决定了我们如今看到的大模型赛道的热闹,大多都是巨头的狂欢。
堵俊平
基础性大模型在当前阶段一定是一个非常烧钱的生意。我看到一组OpenAI的数字,包括数据中心和整体模型投入,成本大约为440亿美元,再加上人工等成本,训练这一模型需要巨额资金。同时全球各地的用户提问会导致model serving成本上升,因为每次提问都需要调用算力进行计算,成本相应增加。但是随着时间推移,问题可能会呈现收敛,如果通过把一部分的结果缓存的方式,成本、开销应该会有压缩和下降的拐点,但这个拐点现在有没有到,我还不太清楚。
这是堵俊平,同为AI赛道创业者的他此前主要从事的是开源相关的工作。在他看来,大模型烧钱,未来势必会走向集中,但这并不意味着容不下更多入局者。基础性的大模型,或者说通用大模型,或许更多是巨头的游戏;但是当模型面向行业、面向应用,也会诞生一些结合行业的、趋向中型的模型,也就是垂直领域模型。
堵俊平
在这个领域里有很多新的机会出现了,很多公司,包括一些初创企业会往这个方向在走,一方面做自己行业的模型、应用的模型,另外一方面想通过模型构建竞争壁垒,所以在很多个行业其实都存在着被颠覆的可能。
李国兴
我们现在绝大多数产品的形态,还是以商业化的大模型为基础,通过调用其能力,结合特定的数据、场景和API去实现,其他可能的形式仍处于探索和构想阶段。
李国兴
其实任何一个专业领域的知识,往往跨度大且难以获取或理解,这些知识构成了业务或职业所需的技能和积累。比如在与人事打交道时,就需要知道专项、补偿金的概念。另外存在一些专业术语,GPT的理解没有那么深。比如我们去问它,在一些场景里面的汇报上级是谁,它可能会答出来,但如果问它直接上级是谁,它不一定能理解这个概念,这种细微的语言差异可能导致其对概念的误解,这种概念的背后其实都是知识。
罗超
通用大模型长期来看,它一定会是高度集中,但不会是一家独大,这是我初步的一个判断。高度集中的原因很简单,因为通用大模型的前期投入非常大,而它后续的使用成本,也就是边际使用成本恰恰是不高的。也就是说前期需要投入大量的钱,但一旦开始商业化,每一次调用的边际成本相对是偏低的,所以它一定是需要重资本密集型投入,并且需要非常长的时间和人力和资本累积才能够做出来的。
世界上不可能存在数百个、数千个大模型。一方面是因为我们今天人类文明所掌握的算力资源、电力资源、人才资源都不足以支撑全世界有数千个甚至更多的大模型同时发生。另一方面一旦大模型做出来之后,因为边际使用成本很低,所以越集中的巨头越有优势把这样的服务提供给更多的使用者和应用开发者。
在互联网时代,大量的公域数据都可以被抓来,这也是为什么今天ChatGPT可以达到这样一个水准。其中存在的一个问题是:当移动互联网产生,尤其是在很多国家,它的大量数据都是切割开的,分散在不同的私域里,所以这个时候其实很多数据并没有被互通好,各家有各家的所谓的Proprietary Data。如果这些数据能被很好地使用和利用的话,就可以产生各种各样的不同方向的模型。
OpenAI之前曾披露,研发人员给GPT-3.5提供了45TB的文本语料,这是什么概念呢?是472万套中国四大名著的规模。而程序员「喂」给机器的语料,包括了百科、网络文章、书籍期刊等等,甚至代码开源平台Github也被纳入其中。
而正如罗超提到的,在细分行业,很多企业由于数据风险问题,不可能将数据放在通用大模型中做训练;由此企业所持有的私域数据拥有极高的价值,比如医疗公司拥有大量的医疗数据和病例数据,那么它就有机会开发医疗垂直大模型产品。
从投资人和创业者的角度,如何看待大模型
罗超
我觉得如果你今天是一个相对草根的初创团队,机会其实还是很多的。因为在移动互联网的初期,当时也有所谓的巨头,但是只要想法足够新颖且能够抓住自己的创业优势,那么你依然可以在自己的垂直领域,无论是去做一个To B的垂直应用,还是做好积累去做一个 To C的未来爆款级,这种可能性我认为都是存在的。
如果TA是一个To B领域的创业者,今天已经有一些客户在使用TA的产品,那么TA需要更多地回答:
“我能否把我的服务价值做到更好,我能否让我的客户留存做到更好?”然后我慢慢把客单价提起来,在做扎实基本盘之后,逐步渗透到越来越多的客户。
在把拉新和留存这两个维度的事情做完之后,它是一个非常正常的飞轮的循环过程。如果今天TA的产品还没有找到PMI,即在做一个To B的业务,但同时产品还没有人开始用,那我觉得TA需要花更多时间去和TA的客户交流:“我的技术对你是否真的有帮助?我的技术如果对你有帮助,应该如何更好地产品化,才能让你真的用得上?”
如果是To C的话,简单来说还是需要更多耐心。移动互联网这么长的时间,几乎大家能够想到的在C端应用上的创新,都被无数创业者试过无数遍。所以创业者今天想通过一个很好的、之前没人想到的想法,就去抓到一波用户实现暴涨的可能性虽不是0,但它确实不高,所以这个时候创业者其实需要考虑的是有耐心地等待一个新的范式转移。
堵俊平
To C 的发展我会认为更偏向于应用驱动。以手机为例,比如 iPhone 的Siri,它是一个天然和模型结合的场景,因为我们问 Siri 的期待是停留在 iPhone 刚出来的那个时刻,很长时间已经没有变化了,可能就是逗它一下,问一下天气,跟它讲笑话。但是如果它和 GPT-4 甚至更高级的模型联合起来的话,就会是一个真正更好的助手,甚至是生活助理,它会更了解你。也就是说应用级的 AI 或者 C端的AI,一定是和人的日常生活会更紧密,所以应用级的创新会更多。
但是在B端是另外一回事。B端的问题在于,一个 AI模型离企业的落地创造价值还是有很长的一个路径要走。现在有AI生成的文档,能够替换掉一些纯粹意义上的paperwork,但是在未来它其实能改变很多,比如说提高我们决策的质量。企业要做很多的商业决策,决策的质量现在是基于历史上的数据来做,但是得到数据的过程其实涉及了大量的人工,也会有很多的偏差,因为人的判断或者分析有时可能会有些问题,但是 AI 做这样的事情,精确度会高很多。再比如说通过 AI 来压缩整个流程,比如说在公司场景里面的采购流程、销售流程、业务流程,其实有很多的链条,这些实际上是可以用AI来提升效率,甚至是取代一部分的。
当然,在人们依然处于探索大模型创新边界的当下,通用大模型还是垂直大模型,这个问题或许没有标准答案。
徐串
大模型到底会怎么变化,其实现在是有争议的。有人认为通用模型能做所有事情,有的人则认为通用模型一定做不过专业模型,专业模型依然有存在的价值。因为一旦越通用,在专业领域的知识就不可能像专业模型一样好,这就涌现了行业垂直模型的价值。
但这方面也存在争议,比如理论上如果通用模型做得足够好,那么每一个细分行业就没有太大价值,就像搜索引擎,以前有很多针对特定行业的搜索,但这个市场已经被通用搜索挤压得很小,绝大部分的需求已经可以被通用搜索满足。同样的,当通用模型做得足够好,已经能够满足大部分人的需求,是否会使得行业模型变得不成立?如果是一个很标准的垂直细分行业,需要的是考虑行业里的用户有多少,值不值得为这些用户专门做一套行业模型?永远存在这样的需求是不能被满足的,但是需求够不够大是一个很关键的问题,一定要有一个足够大的市场,这样才会有产品的价值。
行业里的人习惯用「涌现」这个词形容机器在某个阶段突然爆发出的能力;这并不是个新鲜词汇,在自然界中「涌现」很常见——成千上万只蚂蚁用身体搭建起能够跨越巨大缝隙的桥梁,小鸟迁徙时在空中组成的复杂队列,或者是更微观的,无数个水分子与空气分子形成了飓风——研究人员针对这些自然界中跨尺度的自组织现象,提出了「涌现」的概念。
罗超
AI 是一个被谈论了很长时间的话题,历史上也有非常多相关的预言。AI 类型的技术产生并得到了广为的认知,但随着时间推移,很多人会认为它并不能满足预期,于是感到失望并跌入谷底,然后又逐渐恢复,所以我认为AI会经历这样一个长期的震荡反复过程。
因此,作为一个投资人,我们今天在看AI、大模型以及AIGC的时候,一是要保持足够的乐观和好奇心,去了解它究竟能够带来什么,但同时也要保持足够的耐心,时常剔除短期的泡沫,短期的噪音,去看它更长期的发展趋势和价值。
堵俊平
我觉得这里面可以找几个特质。首先得看人才密度,经历了大模型这波还能生存下来的,一定是人才密度比较高的公司。第二点是数据,它一定有大量的数据作为储备,有助于模型训练的样本和它的精度调优的一系列工作。第三个是长期的投入,并不指望这样的过程是投入3到6个月、6个月到12个月就能完成的,大模型的探索一定不会是一帆风顺的,就像OpenAI也不是一路鲜花掌声过来的,因此这个公司要有屡败屡战的气质。所以要有韧性,要有人才密度,再加上大量的数据,我认为这三个要素一个都不能少。
徐串
现在大家只是在赶风口,随着市场竞争,最终可能只剩下两三家最出色的公司。虽然 ChatGPT 的中文能力不错,但是和英文对比就能发现它在中文方面存在一些缺陷,因为它训练的中文数据不够多,如果想要做好,需要引入更多中文数据,特别是各种文章和古文。从这个角度考虑,我认为中国还是会有自己的大模型,但是也容不下太多家公司,最终只会留下极少数,因为公司需要考虑投入高成本是否值得。
ChatGPT目前着面临很大的问题,就是它现在的收入完全不可能cover成本,还是要靠微软的Office和Bing搜索来弥补。国内公司也面临类似情况,要确保大模型的日常投入能依靠其他业务产生的收益来弥补,然而对很多公司来说,这种平衡可能并不成立,因此有些公司可能会因为高成本而放弃这个领域。
罗超
我没有办法回答中国是否会产生OpenAI,但我相信中文世界一定会产生OpenAI,我这里指的并非将OpenAI的回复转为中文,而是指完全由中文native生成的大模型必然会出现。我相信在有生之年,甚至在短时间内我们就能看到非常优秀的中文大语言模型的出现。我们需要保持耐心,不应该让短期噪声或是浮躁影响我们对于长期事物的判断,我觉得这是一件不亚于芯片的需要积累的事情。
关于巨头是否会和你做一样的事情,这一问题不仅存在于AI领域,比如在移动互联网领域,甚至在没有互联网的时代,当有人要做一辆新的车时,人们都会问通用汽车或福特会不会做。因此,传统巨头是否会涉足相似的创新业务不是问题的关键,因为传统公司始终在寻找新的机会和方向,而新兴创业公司也一定会面临传统大公司的竞争和挑战,所以这个问题永远存在。
但是回答这个问题的核心在于获胜的核心资源。因此,如果一个创业者是潜心追求长期价值,是使命驱动而非机会驱动,对于长期价值保持信念而不只是对短期价值保持信仰,那么现在是一个特别好的创业时机。这样的创业者更有可能汇聚一批志同道合、有耐心的人,共同致力于一个既有长期价值又能在短期内充分沉淀的事业。
S2E7 当生物计算改变制药流程 ,未来制药行业还需要「人」吗?
微信扫码关注该文公众号作者