Bendi新闻
>
幻方量化开源国内首个MoE大模型,全新架构、免费商用

幻方量化开源国内首个MoE大模型,全新架构、免费商用

9月前
幻方量化旗下组织深度求索发布了国内首个开源 MoE 大模型 —— DeepSeekMoE,全新架构,免费商用。

今年 4 月,幻方量化发布公告称,公司将集中资源和力量,全力投身到服务于全人类共同利益的人工智能技术之中,成立新的独立研究组织,探索 AGI 的本质。幻方将这个新组织命名为 “深度求索 (DeepSeek)”。

DeepSeekMoE 的模型、代码、论文均已同步发布。
  • 模型下载:https://huggingface.co/deepseek-ai

  • 微调代码:https://github.com/deepseek-ai/DeepSeek-MoE

  • 技术报告:https://github.com/deepseek-ai/DeepSeek-MoE/blob/main/DeepSeekMoE.pdf

据介绍,DeepSeekMoE 的多尺度(2B->16B->145B)模型效果均领先:
  • DeepSeekMoE-2B 可接近 MoE 模型的理论上限 2B Dense 模型性能(即相同 Attention/FFN 参数配比的 2B Dense 模型),仅用了 17.5% 计算量

  • DeepSeekMoE-16B 性能比肩 LLaMA2 7B 的同时,仅用了 40% 计算量,也是本次主力开源模型,40G 显存可单卡部署

  • DeepSeekMoE-145B 上的早期实验进一步证明该 MoE 架构明显领先于 Google 的 MoE 架构 GShard,仅用 28.5%(甚至 18.2%)计算量即可匹配 67B Dense 模型的性能

混合专家模型 (Mixed Expert Models,简称 MoEs) 是用于提高大语言模型效率和准确度的技术。这种方法的核心是将复杂任务划分为更小、更易管理的子任务,每个子任务由专门的小型模型或 “专家” 负责,然后根据输入数据的特性选择性地激活这些 “专家”。
MoE 核心组成:
  1. 专家 (Experts)训练有素的小型神经网络,擅长特定领域。每个专家通常专注于处理一种特定类型的数据或任务。专家的设计可以是多种形式,如完全连接的网络、卷积网络等。

  2. 门控机制 (Gating Mechanism)MoE 架构决策者,这是一个智能路由系统,负责决定哪些专家应该被激活来处理当前的输入数据。门控机制基于输入数据的特性,动态地将数据分配给不同的专家。

官方称 DeepSeekMoE 是自研的全新 MoE 框架,主要包含两大创新:
  • 细粒度专家划分:不同于传统 MoE 直接从与标准 FFN 大小相同的 N 个专家里选择激活 K 个专家(如 Mistral 7B8 采取 8 个专家选 2 专家),DeepSeekMoE 把 N 个专家粒度划分更细,在保证激活参数量不变的情况下,从 mN 个专家中选择激活 mK 个专家(如 DeepSeekMoE 16B 采取 64 个专家选 8 个专家),如此可以更加灵活地组合多个专家

  • 共享专家分离:DeepSeekMoE 把激活专家区分为共享专家(Shared Expert)和独立路由专家(Routed Expert),此举有利于将共享和通用的知识压缩进公共参数,减少独立路由专家参数之间的知识冗余

点此查看详情:https://mp.weixin.qq.com/s/T9-EGxYuHcGQgXArLXGbgg


往期推荐



罗永浩:荣耀抄袭锤子手机One Step,比苹果都“牛逼”

因作者遭受恶意攻击,知名安卓框架宣布停更

R语言社区知名开发者 “谢益辉” 被RStudio/Posit公司解雇




这里最新源资讯、软件更新、技术干货等内容

点这里 ↓↓↓ 记得 关注✔ 标星⭐ 哦


微信扫码关注该文公众号作者

来源:OSC开源社区

相关新闻

首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用腾讯混元文生图大模型全面开源!Sora同架构,更懂中文,免费商用国产多模态大模型开源!无条件免费商用,性能超Claude 3 Sonnet0门槛免费商用!孟子3-13B大模型正式开源,万亿token数据训练上海AI实验室开源科学大模型,理科能力全线提升,免费商用国产开源模型标杆大升级,重点能力比肩ChatGPT!书生·浦语2.0发布,支持免费商用32专家MoE大模型免费商用!性能全面对标Llama3,单token推理消耗仅5.28%GPT-4级模型Grok开源可商用!卷底层大模型的公司危了谷歌最强开源大模型亮相!Gemini技术下放,笔记本就能跑,可商用AI早知道|Stability AI发布最新代码模型;国内首个AI综艺导演亮相;英特尔商用客户端AI PC产品发布国内首款鸿蒙人形机器人正在蔚来、亨通等工厂检测验证;华为发布全球首个基于R18的5G-A商用版本Apollo丨智能制造日报说到做到,马斯克开源Grok,3140亿参数免费可商用大模型中文内容安全评测发布,幻方DeepSeek-67B模型夺魁,谷歌7B模型表现亮眼量化传奇西蒙斯离世!幻方量化梁文锋:每当遇到困难时,我会想起西蒙斯的话……AI早知道|界面财联社入局AI;CACTER AI实验室获清华大模型商用授权;美国禁止国会使用Copilot国内首艘商用氢燃料电池动力游览船交付;北京发现世界极危物种低斑蜻丨科技早新闻全网围观魏建军直播:长城端到端智驾大模型挑战重庆「魔幻路况」全球首个!我国自主研发,投入商用穿越奇幻之门:解析全球首个沉浸式主题公园—Immersive Fort Tokyo大模型生产力的头场变革,从英特尔商用 AI PC 说起英特尔AI PC开启商用元年!打造6大AI场景应用,三大AI引擎助力本地跑20B大模型专访幻方梁文锋:AI界的拼多多——揭秘DeepSeek!留学生梦想大幻灭!国外食堂一言难尽被迫投靠“白人饭”,你们吃饭是真的不挑啊...品牌周报 | ​lululemon携手杨紫琼呈现新春主题片、COMMUNE幻师启动品牌升级、闻献完成新一轮融资
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。