大模型降价背后的真相与「猫腻」
5 月 6 日,DeepSeek 率先打响了国内大模型价格战的「第一枪」,推出的 DeepSeek-V2 因性能优异,但价格仅为 GPT-4-Turbo 的近百分之一,引发业内关注和热议。
随后,智谱 AI、字节、阿里、百度、腾讯等国内主要大模型厂商迅速跟进,模型 API 调用价格一再压低,甚至出现了免费的情况。
国内都是哪些大模型厂商在打「价格战」?不同厂商的降价风格有何不同?
国内大模型第一梯队的巨头大厂,几乎都在短时间内迅速反应,加入了此次的「价格大战」,但月之暗面、百川智能、零一万物等大模型创企均没有参与价格战。
5 月 6 日,私募基金「幻方量化」旗下公司深度求索推出 DeepSeek-V2 模型,性能逼近 GPT-4-Turbo,文心 4.0 等闭源模型,但 API 价格每百万 tokens 输入 1 元、输出 2 元,仅为 GPT-4-Turbo 的近百分之一,由此打响了国内大模型价格战的「第一枪」。
5 月 11 日,智谱 AI 跟进,宣布将其 GLM-3 Turbo 模型的调用价格下调 80%。从 5 元/百万 tokens 降至 1 元/百万 tokens。1 元可以购买 100 万 tokens。
5 月 15 日,字节的豆包大模型正式对外开放,放出了较业内极低的价格,价格单位直接从「元」变为「厘」。豆包大模型家族包含豆包通用模型 PRO 版和 lite 版两款通用模型,其中,豆包通用模型 pro-32k 版,推理输入价格 0.0008 元/千 tokens,较行业价格低 99.3%。lite 版为 0.0003 元/千 tokens。
5 月 21 日,「业内大佬」阿里云加入「价格战」,直接发布降价通知。通义千问大语言模型和通义千问开源模型系类的 9 款模型降价,其中,性能对标 GPT-4 的 Qwen-Long 模型降幅最大,API 输入价格从 0.02 元/千 tokens 降至 0.0005 元/千 tokens,仅为 GPT-4 价格的 1/400。
5 月 21 日,在阿里云宣布降价不到 4 个小时的时间内,百度火速进场,ERNIE-Speed、ERNIE-Lite、ERNIE-Tiny 系列模型直接免费开放使用,且百度官网的详细公告显示,两款模型并非限时免费开放,而是长期免费开放。
5 月 22 日,腾讯进场,公布全新大模型升级方案,至此「价格战」集齐了国内巨头重要玩家。腾讯的主力模型之一混元-lite 模型,API 输入输出总长度计划从目前的 4k 升级到 256k,价格从 0.008 元/千 tokens 调整为全面免费。
同日,科大讯飞宣布讯飞星火 Lite 版 API 永久免费开放,讯飞星火 Pro/Max API 价格降至 0.21 元/万 tokens。
虽然「价格战」打得火热,但并非所有模型都降价。各家大模型厂商在降价幅度、降价模型类型、目标用户等方面均不一。其中,值得注意的是,以上几家降价的模型主要为入门级、轻量级的文本大模型,而高性能及图像识别、语音识别等垂类的多模态模型并没有调整价格。
例如,智谱 AI 的大模型产品主要包括 GLM-4 系列(GLM-4、GLM-4V)、GLM-3-Turbo 以及 ChatGLM 模型系列,此次降价调整的是入门级产品 GLM-3 Turbo 模型。企业级产品 GLM-4/GLM-4V 价格未变,仍维持在 0.1 元/千 tokens,百万 tokens 的价格为 100 元;
阿里的模型产品包括通义千问大语言模型、通义千问 VL 视觉理解大模型、通义千问开源模型以及通义万相(文生图)、Sambert 语音合成模型、Paraformer 语音识别模型等垂类模型,但此次降价的只涉及通用大模型,即通义千问大语言模型和通义千问开源模型。
对于此轮降价,有网友戏称「API 价格降得比研发模型时的电费还低」,但实际上,模型调用成本的降价给大模型厂商带来的实际影响并不大。有业内分析认为,降价更多地是出于市场和品牌影响的考虑。
同时,在纯降价格之外,几家大模型厂商都给了不同程度地注册免费送额度,或旨在快速抢占市场与用户。
例如,智谱 AI 宣布新注册开放平台用户赠送额度提升 500%,新注册用户获赠从 500 万 tokens 提升至 2500 万 tokens,其中包含 2000 万入门级额度和 500 万企业级额度。
「烧钱换数据」,庞大的用户访问量有助于其进一步提升模型服务能力,利用规模效应大幅降低模型推理的单位成本,并行成「数据飞轮」,从而加速大模型性能的提升。但有业内人士认为,各大模型的「数据飞轮」目前并未有效的建起来。
值得注意的是,此轮降价仅涉及模型的预置服务,即按 token 量调用方式使用所给的预置模型,而后续模型的精调、训练、部署价格并未调整。
在阿里云平台,展示了其收费服务包括模型推理、模型训练和模型部署三个环节,分别对应三个使用场景:直接调用预置模型进行推理、对预置模型进行调优,部署预置模型或调优后的模型到独占实例后进行推理。而涉及到此次降价的服务只有模型推理环节,即直接调用预置模型进行推理,根据实际使用的推理数量计费。
百度同样也在其官网详细版免费公告中提到,调整仅涉及部分系列模型的预置服务,模型训练暂无优惠。
从每百万 tokens 几十元到免费使用,看似价格大幅度下调,但企业用户的实际成本是否也大幅度下来了,答案却是不一定。「火热」的价格战背后,存在不少「猫腻」。
一方面,此次各大模型厂商降价仅涉及低并发(测试场景)用,而高并发的定价依旧,并没有降低。
大模型的推理包含时间、价格、生成 Token 数量三个变量。其中,模型推理服务的吞吐是一个至关重要的因素,抛开单位时间内的并发数量,仅看 tokens 价格并不合理。
简单来说,一个大模型,可以支持多次计算过程同时进行,进行的计算数量越多越好。吞吐的极限越大,代表着模型的推理能力越强,大模型厂商的技术能力越强。
而在实际跑业务的过程中,往往需要增加并发量,远超低并发的数量限制。根据阿里云官网的计费说明文档,按 tokens 调用模式(即模型推理计费模式,仅适用于预置模型)暂不支持增加并发量。如果业务实际需要增加并发量,则需要额外联系商务。
同时,针对于大企业的实际业务场景来说,模型调用的成本在总体成本中实际占比也并不高,因此,API 的降价并不能给大企业带来实质性的影响,相反,在「价格战」之后,大模型厂商后续价格的调整,或者对于大企业业务的汇报和后续变动成本会更高。
而对于个人开发者、小型企业或「小项目」来说,模型 API 调用价格下降,在一定程度是一种利好,未来的成本可能趋近于 0,涌现出来更多的大模型相关项目或应用。
另一方面,实际上,从基础大模型的 API 调用模式离实际业务还有一段距离。Lepton.ai 的创始人贾扬清认为,「站在整个 AI 业界的角度,降价是个拍脑袋就可以做的简单策略,但是真正的 To B 商业成功更难。今天企业在使用 AI 的时候,并不是成本驱动的,今天不是说 API 贵才没有人用,而是因为要搞清楚,到底怎么用起来产生业务价值」。
而回过头来看,国内各大模型厂商「打价格战」归根究竟,很大程度上是由于各大模型间性能差异不大,同质性较强,在用户数量难以进一步增长的情况下,通过低价策略吸引开发者,从而建立生态壁垒。
而对比国外大模型厂商,拼得则是「每秒生成的 Token 数量」,AI 创企 Groq 因通过自研 LPU 训练出推理速度最快的 LLM 收到极大关注。在 Groq 上,Mixtral 模型 8×7B 版本,每秒输出 500 个 Token;Llama 2 模型的 70B 版本,每秒输出 300 个 Token;Llama 3 模型的 8B 版本,每秒输出 800 个 Token;Falcon 的 180B 模型,每秒输出 173 个 Token。
为何企业用户的实际成本并没有真正实现大幅度降低?价格战是否波及到了国外大模型及 C 端大模型应用公司?...
订阅机器之心Pro会员通讯👇,查看完整解读
微信扫码关注该文公众号作者