Bendi新闻
>
7B开源数学模型干翻千亿GPT-4,中国团队出品

7B开源数学模型干翻千亿GPT-4,中国团队出品

4月前
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

7B开源模型,数学能力超过了千亿规模的GPT-4!

它的表现可谓是突破了开源模型的极限,连阿里通义的研究员也感叹缩放定律是不是失效了。

无需借助任何外部工具,它就能在竞赛水平的MATH数据集上达到51.7%的准确率。

在开源模型中,它第一个在该数据集上达到一半的准确率,甚至超过了早期和API版本的GPT-4。

这一表现让整个开源社区为之震撼,Stability AI的创始人Emad Mostaque也表示研发团队属实让人印象深刻,而且潜力被低估了。

它,就是深度求索团队最新开源的7B数学大模型DeepSeekMath。

7B模型力压群雄

为了评估DeepSeekMath的数学能力,研究团队使用了中(MGSM-zh、CMATH)(GSM8K、MATH)双语的数据集进行了测试。

在未使用辅助工具、仅靠思维链(CoT)提示的情况下,DeepSeekMath的表现均超越了其他开源模型,其中包括70B的数学大模型MetaMATH。

和自家推出的67B通用大模型相比,DeepSeekMath的成绩也有大幅提升。

如果考虑闭源模型,DeepSeekMath也是在几个数据集上都超越了Gemini Pro和GPT-3.5,在中文的CMATH上超越了GPT-4,MATH上的表现也与之接近。

但要注意的是,GPT-4按泄露规格是一个千亿参数的庞然大物,而DeepSeekMath参数量只有7B。

如果允许使用工具(Python)进行辅助,DeepSeekMath在竞赛难度(MATH)数据集上的表现还能再提高7个百分点。

那么,DeepSeekMath优异表现的背后,都应用了哪些技术呢?

基于代码模型打造

为了获得比从通用模型更好的数学能力,研究团队使用了代码模型DeepSeek-Coder-v1.5对其进行初始化。

因为团队发现,无论是在两阶段训练还是一阶段训练设置下,代码训练相比于通用数据训练都可以提升模型的数学能力。

在Coder的基础上,研究团队继续训练了5000亿token,数据分布如下图:

训练数据方面,DeepSeekMath使用的是从Common Crawl提取的120B高质量数学网页数据,得到了DeepSeekMath Corpus,总数据量是开源数据集OpenWebMath的9倍。

数据采集过程是迭代式进行的,经过四次迭代,研究团队收集了3500多万个数学网页,Token数量达到了1200亿。

为了确保训练数据中不包含测试集的内容(因为GSM8K、MATH中的内容在互联网上大量存在),研究团队还专门进行了过滤。

为了验证DeepSeekMath Corpus的数据质量,研究团队分别用MathPile等多个数据集训练了1500亿token,结果Corpus在多个数学基准上效果明显领先。

对齐阶段,研究团队首先构建了一个776K样本的中英文数学指导监督微调(SFT)数据集,其中包括CoT、PoT和工具集成推理等三种格式。

而在强化学习(RL)阶段,研究团队使用了一种名为“基于组的相对策略优化”(Group Relative Policy Optimization ,GRPO)的高效算法。

GRPO是近端策略优化(PPO)的一种变体,过程中传统的价值函数被替换为一个基于组的相对奖励估计,可以减少训练过程中的计算和内存需求。

同时,GRPO通过迭代过程进行训练,奖励模型会根据策略模型的输出不断更新,以确保策略的持续改进。

曾推出首个国产开源MoE模型

推出DeepSeekMath的深度求索团队,是国内开源模型领域的一名“头部选手”。

此前,该团队就曾推出过首个国产开源MoE模型DeepSeek MoE,它的7B版本以40%的计算量击败了相同规模的密集模型Llama 2。

作为通用模型,DeepSeek MoE在代码和数学任务上的表现就已十分亮眼,而且资源消耗非常低。

代码方面,该团队推出的DeepSeek-Coder的编程能力在代码生成、跨文件代码补全、以及程序解数学题等多个任务上均超过了同等规模的开源标杆CodeLllama。

同时,它也击败了GPT-3.5-Turbo,成为最接近GPT-4-Turbo的开源代码模型。

如前文所说,此次推出的DeepSeekMath,也正是在Coder的基础之上打造的。

而在X上,已经有人开始在期待Coder和Math的MoE版本了。

论文地址:
https://arxiv.org/abs/2402.03300
参考链接:
[1]
https://twitter.com/deepseek_ai/status/1754701472363958581
[2]https://mp.weixin.qq.com/s/CPyKHnBNzJuCn-wZ1wpPoA

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


微信扫码关注该文公众号作者

来源:量子位

相关新闻

三个Agent顶个GPT-4,基于开源小模型的那种|中大阿里联合出品AlphaGo核心算法增强,7B模型数学能力直逼GPT-4,阿里大模型新研究火了识别细胞也能用大模型了!清华系团队出品,已入选ICML 2024 | 开源AI早知道|360智脑7B大模型开源;ChatGPT 的全球增长率逐渐下降32K上下文,Mistral 7B v0.2 基模型突然开源了清华系又造大模型标杆!2B规模干翻Mistral-7B,超低成本为AI Agent护航Meta无限长文本大模型来了:参数仅7B,已开源2B参数性能超Mistral-7B:面壁智能多模态端侧模型开源首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%国产开源Sora上新:全面支持国产AI算力,可用ReVideo视频编辑,北大-兔展团队出品苹果智能背后模型公布:3B模型优于Gemma-7B,服务器模型媲美GPT-3.5-TurboAI机器人做满汉全席?! 斯坦福华人团队出品,做饭洗碗家务包干!「专业智能体指导」让小模型学会数学推理!微调Mistral-7B实现86.81%准确率2B小钢炮碾压Mistral-7B,旗舰级端侧模型炸场开年黑马!1080Ti可训,170万tokens成本仅1元大模型恋爱神器!16种MBTI自由定制,北大ChatLaw团队出品国内外140+大模型、8万+考题测评结果出炉!智源评测体系出品AI画连环画角色更一致了!人物之间的复杂互动也能处理|中山大学&联想团队出品华为诺亚频域LLM「帝江」:仅需1/50训练成本,7B模型媲美LLaMA,推理加速5倍CVPR 2024 | 闻声识人黑科技!从音频中想象出说话人脸,FaceChain团队出品LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力1块3090就能训7B大模型,山东大学低带宽低显存训练法,解决显卡限购卡脖子外网爆火AI课程上线!BCG官方出品,留学生4小时即可拿证!中国四大酒厂出品,198到手2礼盒【泸州老窖尊仕典藏】,喝完后悔囤少了!泸州老窖总厂出品!对标千元级窖龄60,线下商超同款,限时1.5折抢!
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。