Bendi新闻
>
首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%

首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%

10月前
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

开源MoE模型,终于迎来首位国产选手!

它的表现完全不输给密集的Llama 2-7B模型,计算量却仅有40%。

这个模型堪称19边形战士,特别是在数学和代码能力上对Llama形成了碾压。

它就是深度求索团队最新开源的160亿参数专家模型DeepSeek MoE。

除了性能上表现优异,DeepSeek MoE主打的就是节约计算量。

在这张表现-激活参数量图中,它“一枝独秀”地占据了左上角的大片空白区。

发布仅一天,DeepSeek团队在X上的推文就有大量转发关注。

JP摩根的机器学习工程师Maxime Labonne测试后也表示,DeepSeek MoE的chat版本表现要略胜于微软的“小模型”Phi-2。

同时,DeepSeek MoE还在GitHub上获得了300+星标,并登上了Hugging Face文本生成类模型排行榜的首页。

那么,DeepSeek MoE的具体表现究竟怎么样呢?

计算量减少60%

DeepSeek MoE目前推出的版本参数量为160亿,实际激活参数量大约是28亿。

与自家的7B密集模型相比,二者在19个数据集上的表现各有胜负,但整体比较接近。

而与同为密集模型的Llama 2-7B相比,DeepSeek MoE在数学、代码等方面还体现出来明显的优势。

但两种密集模型的计算量都超过了180TFLOPs每4k token,DeepSeek MoE却只有74.4TFLOPs,只有两者的40%。

在20亿参数量时进行的性能测试显示,DeepSeek MoE同样能以更少的计算量,达到与1.5倍参数量、同为MoE模型的GShard 2.8B相当甚至更好的效果。

此外深度求索团队还基于SFT微调除了DeepSeek MoE的Chat版本,表现同样接近自家密集版本和Llama 2-7B。

此外,深度求索团队还透露,DeepSeek MoE模型还有145B版本正在研发。

阶段性的初步试验显示,145B的DeepSeek MoE对GShard 137B具有极大的领先优势,同时能够以28.5%的计算量达到与密集版DeepSeek 67B模型相当的性能。

研发完毕后,团队也将对145B版本进行开源。

而在这些模型表现的背后,是DeepSeek全新的自研MoE架构。

自研MoE新架构

首先是相比于传统的MoE架构,DeepSeek拥有更细粒度专家划分。

在总参数量一定的情况下,传统模型分出N个专家,而DeepSeek可能分出2N个。

同时,每次执行任务时选择的专家数量也是传统模型的2倍,所以总体使用的参数量也不变,但选择的自由度增加了。

这种分割策略允许更灵活和适应性的激活专家组合,从而提高了模型在不同任务上的准确性和知识获取的针对性。

除了专家划分上的差异,DeepSeek还创新性地引入了“共享专家”的设置。

这些共享专家对所有输入的token激活,不受路由模块影响,目的是捕获和整合在不同上下文中都需要的共同知识。

通过将这些共享知识压缩到共享专家中,可以减少其他专家之间的参数冗余,从而提高模型的参数效率。

共享专家的设置有助于其他专家更加专注于其独特的知识领域,从而提高整体的专家专业化水平。

消融实验结果表明,这两个方案都为DeepSeek MoE的“降本增效”起到了重要作用。

论文地址:
https://arxiv.org/abs/2401.06066
参考链接:
https://mp.weixin.qq.com/s/T9-EGxYuHcGQgXArLXGbgg

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

来源:量子位

相关新闻

国内首个开源千亿参数MoE大模型来了!性能超Grok-1,单张GPU可跑P70系列有3或4款新品;国内首个开源千亿参数MoE大模型来了,对标马斯克的Grok……终于来了!中国首个接入大模型的Linux开源操作系统正式发布!非Transformer架构站起来了!首个纯无注意力大模型,超越开源巨头Llama 3.1讯飞星火V3.5整体接近GPT-4 Turbo!首个13B开源大模型发布,深度适配国产算力首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源幻方量化开源国内首个MoE大模型,全新架构、免费商用Falcon Mamba来了!首个无注意力大模型!再次挑战Transformer!Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人首个国产音乐SOTA模型来了!专为中文优化,免费用,不限曲风ICLR 2024 | 机器人领域首个开源视觉-语言操作大模型!RoboFlamingo框架激发开源VLMs更大潜能全球首个芯片设计开源大模型诞生!5年重塑5000亿美元半导体行业苹果开源大模型OpenELM来了,或将用在下一代iPhone上;红杉入局,传马斯克AI公司将获60亿美元投资丨AI周报史上首个100%开源大模型重磅登场!破纪录公开代码/权重/数据集/训练全过程,AMD都能训别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元3D 版 SORA 来了!DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用首个WebAgent在线评测框架和流程数据管理平台来了,GPT-4、Qwen登顶闭源和开源榜首!清华等高校推出首个开源大模型水印工具包MarkLLM,支持近10种最新水印算法首个开源世界模型!百万级上下文,长视频理解吊打GPT-4,UC伯克利华人一作原作亲自下场!Mistral首款开源7B Mamba模型「埃及艳后」效果惊艳速度秒杀GPT-4o!Mistral开源首个22B代码模型破记录,支持80+编程语言AI早知道|元象开源首个多模态大模型XVERSE-V;信通院发布国内首个汽车大模型标准字节发布机器人领域首个开源视觉-语言操作大模型,激发开源VLMs更大潜能
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。