Bendi新闻
>
大模型又开“卷”!万亿参数闭源模型、四千亿开源模型来了

大模型又开“卷”!万亿参数闭源模型、四千亿开源模型来了

8月前

2024.04.18

本文字数:3388,阅读时长大约5分钟



导读:“今年大模型相关技术仍然会高速发展,大概率会达到难以想象的高度。”


作者 | 第一财经 刘晓洁


4 月 17 日,两家大模型企业相继宣布重大更新。

午间,MiniMax在其公众号宣布正式推出abab 6.5 系列模型,其中abab 6.5 包含万亿参数,支持 200k tokens的上下文长度,abab 6.5s 与 abab 6.5 使用了同样的训练技术和数据,但是更高效,支持 200k tokens 的上下文长度,可以 1 秒内处理近 3 万字的文本。

更早一点,上午昆仑万维在其官方公众号宣布,开源4000亿参数的大模型天工3.0,这超越了马斯克此前开源的3140亿参数的Grok-1,是全球最大的开源MoE(混合专家模型)大模型。昆仑万维提到,天工3.0在语义理解、逻辑推理、通用性、泛化性、不确定性知识、学习能力等领域拥有突破性的性能提升,在MMBench等多项权威多模态测评结果中,天工3.0超越GPT-4V。

来到2024年,大模型领域的“千模大战”还在继续。开源模型的参数一次比一次更大,从几百亿来到几千亿,而闭源模型也在不断沿着Scaling Laws(尺度定律)路径升级,在千亿参数的基础上攀登万亿。同时,大模型厂商也拿出了更多的应用开始落地。

有观点认为2024年会是应用爆发的一年,此前第一财经记者问及MiniMax技术副总裁安德森是否认可这一观点,他认为很有可能爆发,“今年大模型相关技术仍然会高速发展,大概率会达到难以想象的高度。”

“卷”大模型


在发布模型时,按照惯例各家都会公布对标头部模型的能力分数。

MiniMax表示,各类核心能力测试中,abab 6.5开始接近 GPT-4、 Claude-3、 Gemini-1.5 等世界上最领先的大语言模型。

MiniMax在 200k token 内进行了业界常用的“大海捞针”测试,即在很长的文本中放入一个和该文本无关的句子(针),然后通过自然语言提问模型,看模型是否准确将这个“针”回答出来。MiniMax提到,在 891 次测试中,abab 6.5 均能正确回答。

昆仑万维提到,“在MMBench等多项权威多模态测评结果中,天工3.0超越GPT-4V。”相较于上一代天工2.0 MoE大模型,天工3.0模型技术知识能力提升超过20%,数学/推理/代码/文创能力提升超过30%。

天工3.0新增了搜索增强、研究模式、调用代码及绘制图表、多次调用联网搜索等能力,并针对性地训练了模型的Agent能力,能够独立完成规划、调用、组合外部工具及信息。

昆仑万维表示,天工3.0是全球首个多模态“超级模型”(Super Model),集成了AI搜索、AI写作、AI长文本阅读、AI对话、AI语音合成、AI图片生成、AI漫画创作、AI图片识别、AI音乐生成、AI代码写作、AI表格生成等多项能力,是大模型时代的“超级应用”。

对于国内大模型圈子来说,两家公司今日的更新都将大模型水平再提升了一个台阶。

在MiniMax之前,阶跃星辰是国内第一个对外公开万亿参数模型的创业公司,不过当时发布的是预览版,在3月23日的2024全球开发者先锋大会上,在发布Step-1 千亿参数语言大模型的同时,阶跃星辰创始人姜大昕对外发布了Step-2万亿参数MoE语言大模型预览版,提供 API 接口给部分合作伙伴试用。

阶跃星辰创始人姜大昕是微软前全球副总裁,在公布万亿参数模型预览版时,他提到,“要把模型做大不是一件简单的事情”。

在过去的一年,国内不下 10个模型达到了 GPT-3.5 的水平,所以业内有个观点,认为追赶 OpenAI也没有那么困难。但实际上, GPT-3.5 是一个千亿参数的模型。要达到 GPT-4 的万亿规模参数,各个维度的要求都上了一个台阶,阶跃星辰表示,“模型规模提升到万亿对算力、系统、数据和算法都提出了新要求。”业内只有极少数公司能做到。

而在开源模型参数方面,上一次破纪录的更新是在3月18日,马斯克旗下大模型公司 xAI 在官网宣布开源 3140 亿参数的大模型Grok-1,这是当时参数量最大的开源模型,此前开源大模型中影响力较大的是 Meta开源的Llama 2,有700亿参数。

范围缩小到国内,此前最大的开源模型是阿里的千问72B,有着720亿参数。就在4月2日,国内有了首个千亿参数的开源MoE模型,当天APUS与大模型创企新旦智能联手宣布开源APUS-xDAN大模型4.0,参数规模为1360亿。据APUS实测,其综合性能超过GPT-3.5,达到GPT-4的90%。

值得一提的是,APUS-xDAN大模型4.0可在消费级显卡4090上运行,这也是国内首个可以在消费级显卡上运行的千亿MoE中英文大模型。官网表示,APUS-xDAN 大模型4.0采用GPT4类似的MoE架构,特点是多专家模型组合,同时激活使用只有2个子模块,实际运行效率对比传统Dense同尺寸模型效率提升200%,推理成本下降400%。在实际部署上,通过进一步的高精度微调量化技术,模型尺寸缩小500%,从而拥有了国内首个可以在消费级显卡运行的千亿MoE中英文大模型。

MoE模型架构已经成为目前大部分大模型厂商的共识,这种架构将神经网络拆分成多个专家子网络,面对一次输入,既可以指定某一位“专家”来回答,也可以要求多位“专家”回答,甚至全部参与回答,最终依据权重综合给出结果。这使得 MoE 架构的可扩展性优秀,开发者可以在一个巨型模型上,继续增加参数量,进行横向扩展。同时因为 MoE 可以选择只启用部分专家子模型,也在保持性能的同时,降低了推理成本。

昆仑万维提到,MoE混合专家模型是全球技术最领先、性能最强大的基座模型技术路径,相较于其他模型,MoE大模型应对复杂任务能力更强、模型响应速度更快、训练及推理效率更高、可扩展性更强。

模型越大越好吗


除了MoE之外,大模型厂商们目前的另一信仰无一例外是Scaling Laws,他们坚信大力能出奇迹,要将大模型的规模做得更大。

此前阶跃星辰就表示,“攀爬 Scaling Laws 是极其艰巨但必须坚持的任务,我们正走在正确的路上。”

MiniMax此次发文提到,在升级至万亿参数的过程中,找到了越来越多加速实现Scaling Laws(尺度定律)的途径,包括改进模型架构,重构数据 pipeline,训练算法及并行训练策略优化等,此次发布的 abab 6.5 和 abab 6.5s 就是加速 Scaling Laws 过程的阶段性成果。

但要攀登Scaling Laws并不容易。在万亿参数规模上,根据阶跃星辰数据,至少需要等效 A800 万卡单一集群,高效稳定的训练,十万亿tokens 高质量的数据,加上驾驭新颖的MoE 架构,任何一环出现短板,就很难将模型提升至万亿参数。

“我们就是因为充分意识到这件事情有多艰难,才判断 GPT-3.5 以后只有极少数团队有能力继续攀爬 Scaling Laws。”阶跃星辰认为攀登 Scaling Law 是一个“铁人四项”的超级工程,它包含了算力、系统、数据和算法四大要素。阶跃星辰提到,从创立初始就在四要素方面做了充分准备,包括自建机房和租用算力,团队此前实践过单集群万卡以上的系统建设与管理,在算法上团队也能驾驭万亿参数的 MoE 架构。

不过,对于大模型参数是否越大越好,业界已经开始反思。上海人工智能实验室主任助理、领军科学家乔宇此前在GDC大会上就表示,沿着Scaling Law,未来对于数据算力的需求越来越多,大家会有一个问题,Scaling Law何处是尽头,跟现在相比,大模型至少还有1-2个数量级的提升。

“到2030年,是不是我们再提高两个数量级就有机会实现真正通用的人工智能,但是我们也要考虑另外一个问题,按照目前这条技术路线,它对算力、对能耗的消耗非常巨大。我们真的需要把我们这么大的社会资源都投入到这样的领域中来,还是需要现在这种Scaling Laws更加高效的方法,后者是这个时代研究者、开发者必须思考的问题。”乔宇说。

更早前,乔宇提到,过去人工智能兴起核心的一点是大力出奇迹,堆更多的数据、用更多的算力,但只靠规模、只靠数据解决不了幻觉、可信和可控的问题。

模型参数越大,还必然面临的是成本的问题。在此前的采访中有业内人士就表示,如果每一个用户的需求都用大模型千亿参数去响应的话,企业方的成本收益也会算不过来,更不用说万亿参数的规模所面临的成本。

此前一位行业人士也提到大模型技术圈有一个现象,“去年年中时,Agent(智能体)很火,所有人都来问我有没有做Agent,好像不做我就落后于这个时代了。过了不久大家开始做MoE,有时候出席交流活动,他们就会问你这个是不是MoE的模型,就变成好像只要有了MoE这个模型就变得很先进。”

就在不久前,大模型厂商们又纷纷开始宣布长文本升级,上述行业人士认为,这个现象的意义是超越本身的技术突破的,国内所有的一线大模型机构都已经突破了兆级的长文本能力,但是不是把它作为最主要的方向去打磨,其实大家有不同的判断。

放在参数规模上,大模型最终要落地非常关键一件事是成本可控,以尽可能低的成本达到相同的效果。而大模型本身模型越大使用成本越高,绝大部分真实的应用场景或许并不需要一个超大模型来服务,大部分简单的问题相对规模小一点、成本低一点的模型就已经能解决问题,这时候,使用者可能需要考虑的是有没有必要“杀鸡用牛刀”。


微信编辑 | 七三



推荐阅读

48天近30名医卫官员被查!




微信扫码关注该文公众号作者

来源:第一财经

相关新闻

最强开源大模型Llama 3来了!4000亿参数狙击GPT-4,训练数据达Llama 2七倍国内首个开源千亿参数MoE大模型来了!性能超Grok-1,单张GPU可跑卷疯了!最强开源大模型Llama 3发布,最大参数4000亿,小扎内心:大模型比元宇宙香多了周鸿祎向李彦宏“开炮”:有些名人胡说八道别被忽悠了;全球最强开源大模型Llama 3发布:最大模型参数将超4000亿丨AI周报P70系列有3或4款新品;国内首个开源千亿参数MoE大模型来了,对标马斯克的Grok……开源大模型Llama 3王者归来!最大底牌4000亿参数,性能直逼GPT-4曝小扎写信“挖角”DeepMind;我国10亿级参数大模型超百个;Stability AI开源代码生成模型丨AIGC大事日报单个4090可推理,2000亿稀疏大模型「天工MoE」开源扎克伯格最新2万字访谈:价值百亿美金的“最强开源大模型”Llama3及背后的一切0门槛免费商用!孟子3-13B大模型正式开源,万亿token数据训练苹果开源大模型OpenELM来了,或将用在下一代iPhone上;红杉入局,传马斯克AI公司将获60亿美元投资丨AI周报马斯克发全球最大开源模型!3140亿参数的Grok真打脸OpenAI了?最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上开源大模型王座再易主,1320亿参数DBRX上线,基础、微调模型都有美国「开源 AI 大模型」出口限制法案:43票赞成、3票反对!第一轮通过!AI大佬重磅预测:高阶模型不会开源,软件公司或消失,「单飞」创业者春天来了最佳开源模型刷新多项SOTA,首次超越Mixtral Instruct!「开源版GPT-4」家族迎来大爆发“我们坚持开源!”阿里云发布“地表最强”中文大模型:半年一迭代、性能翻倍?开源仅 1 天就斩获近万星!超越 RAG、让大模型拥有超强记忆力的 Mem0 火了开源仅 1 天就斩获近万星!超越 RAG、让大模型拥有超强记忆力的 Mem0 火了!全球顶尖AI研究者中国贡献26%;1320亿参数大模型开源;Anthropic大模型测评首超GPT-4丨AIGC大事日报首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%面壁智能低调开源大模型“理科状元”!LeetCode 周赛超越80%人类选手,推理性能超 Llama3-70B下一代 RAG 技术来了!微软正式开源 GraphRAG:大模型行业将迎来新的升级?
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。