Bendi新闻
>
性能强,成本低,运行快!最强开源大模型出现,超越ChatGPT和Llama!

性能强,成本低,运行快!最强开源大模型出现,超越ChatGPT和Llama!

夕小瑶科技说 原创
作者 | 蛋糕
大数据人工智能公司 Databricks放大招了!3月27日,该公司开源了通用大模型 DBRX,并声称该模型是迄今为止全球最强大的开源大型语言模型,比 Meta 的 Llama 2 更为强大。

Databricks CEO&创始人 Ali Ghodsi表示,DBRX不仅在测试中超过了所有先前的开源模型,而且该模型本身是一个专家混合模型(MoE),大致上拥有两倍的计算能力(132B),但成本只有Llama2-70B的一半(36B),这使得它既聪明又廉价。并且DBRX的运行速度接近于Llama2-70B的两倍。

DBRX 是在 12 万亿 Token 的文本和代码上预训练的 16×12B MoE LLM,它支持的最大上下文长度为 32k Tokens,并使用了DBRX 使用旋转位置编码 (RoPE)、门控线性单元 (GLU) 和分组查询注意力 (GQA) 等技术来提高模型质量,Hugging Face 工程师 Vaibhav Srivastav 用狂野表示他对DBRX性能的震撼!

知名的机器学习专家、著名书籍《The Hundred-Page Machine Learning Book》的作者Andriy Burkov表示DBRX性能十分强大,如果你有足够多的大型GPU来进行微调,那么结果将是开放式语言模型中最好的。

综合来看,DBRX主要有三个优势,第一性能强,第二成本低,第三运行快

目前,DBRX的基础版本(DBRX Base)和微调版本(DBRX Instruct)都可以在GitHub和AI开发平台Hugging Face上免费获取,供研究和商业使用。用户可以在公共、自定义或其他专有数据上运行和调整。

DBRX Base Hugging Face地址:
https://huggingface.co/databricks/dbrx-base
DBRX Instruct Hugging Face地址:
https://huggingface.co/databricks/dbrx-instruct
Github链接:
https://github.com/databricks/dbrx

让我们来看看DBRX的具体表现吧~

性能测试

DBRX 与开源模型比较

DBRX在语言理解、编程以及数学推理等任务上轻松超越了Meta公司的Llama2-70B、法国Mixtral AI公司的Mixtral以及马斯克刚刚开源的 Grok-1等主流开源大模型。

在两个综合基准测试上评估了DBRX Instruct和其他模型:Hugging Face开放LLM排行榜(包括ARC-Challenge、HellaSwag、MMLU、TruthfulQA、WinoGrande和GSM8k的平均分)和Databricks模型Gauntlet(包含超过30个任务,涵盖世界知识、常识推理、语言理解、阅读理解、符号问题解决和编程等六个类别)。DBRX Instruct在综合基准测试、编程和数学基准测试以及MMLU方面是领先的。它在标准基准测试中超过了所有聊天或指导微调模型。

DBRX 与闭源模型比较

DBRX Instruct 超越了 GPT-3.5(如 GPT-4 论文中所述),并且与 Gemini 1.0 Pro 和 Mistral Medium 具有相当的竞争力。

其中,最让人惊喜的是,在各个评测任务中,DBRX Instruct要么与GPT-3.5持平要么明显超越GPT-3.5,虽然和GPT-4相比仍有一定差距,但是DBRX Instruct毕竟是个开源模型,这样的结果可以让科研工作者一定程度上减少对闭源模型的依赖。看来越来越多的公司可以和OpenAI抗衡了!

长下文任务和 RAG

DBRX Instruct 训练上下文窗口大小为 32K token。DBRX Instruct 表现比 GPT-3.5 Turbo 好;DBRX Instruct 和 Mixtral Instruct 的整体性能相似。

训练效率

在Databricks的研究中,DBRX Instruct模型在计算效率和质量方面取得了显著进展,通过混合专家模型、改进数据质量和优化策略等手段,有效提高了训练和使用模型的效率。

推理效率

DBRX和类似模型在推理效率方面表现出色,MoE架构使得在模型质量和推理效率之间取得更好的平衡,DBRX的推理吞吐量比非MoE模型高2-3倍。

通过测试可以看出,对于同样的输入数据和同样的任务,DBRX Instruct的生成速度要明显快于Llama 2 70B Chat。(图源网络)

结论

本文介绍了DBRX新的开源大模型,该模型在各个任务上都达到了开源大模型的SOTA,并且成功超越或持平了GPT-3.5等常用的闭源大模型,更为重要的是,MoE架构使得DBRX Instruct在模型性能和推理效率之间取得更好的平衡,推理速度也明显快于当前常用的开源大模型,也许,开源的大模型就此崛起!

微信扫码关注该文公众号作者

来源:夕小瑶科技说

相关新闻

卷疯了!最强开源大模型Llama 3发布,最大参数4000亿,小扎内心:大模型比元宇宙香多了最强开源大模型Llama 3来了!4000亿参数狙击GPT-4,训练数据达Llama 2七倍最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上最强开源大模型深夜炸场! Llama 3 王者归来,直逼 GPT-4, 马斯克点赞 | 附体验链接“我们坚持开源!”阿里云发布“地表最强”中文大模型:半年一迭代、性能翻倍?英伟达开源3400亿巨兽,98%合成数据训出最强开源通用模型!性能对标GPT-4o谷歌最强开源大模型亮相!Gemini技术下放,笔记本就能跑,可商用扎克伯格的Llama 3号称全球最强开源模型!却写不好这个……开源仅 1 天就斩获近万星!超越 RAG、让大模型拥有超强记忆力的 Mem0 火了开源仅 1 天就斩获近万星!超越 RAG、让大模型拥有超强记忆力的 Mem0 火了!阿里云突然发布全球最强开源模型 Qwen2,性能超越美国最强开源模型重磅!Mistral Large 2深夜发布!Llama3.1仅一天被超越,最强开源再易主开放域检测新SOTA!中山大学美团出品,开源性能最强开源Llama 3.1一夜成最强大模型!超越闭源GPT-4o,OpenAI坐不住了首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%开源大模型Llama 3王者归来!最大底牌4000亿参数,性能直逼GPT-4小模型崛起!Llama 3.1 8B参数减半性能更强,英伟达把剪枝和蒸馏玩明白了非Transformer架构站起来了!首个纯无注意力大模型,超越开源巨头Llama 3.1全球最强开源模型一夜易主,1320亿参数推理飙升2倍!编码数学击败GPT4-Turbo!DeepSeek-Coder-v2登顶竞技场最强开源编码模型面壁智能低调开源大模型“理科状元”!LeetCode 周赛超越80%人类选手,推理性能超 Llama3-70B面壁智能发布最强端侧多模态模型:超越Gemini Pro 、GPT-4V,图像编码快150倍!规格拉满!Llama和Sora作者都来刷脸的中国AI春晚,还开源了一大堆大模型成果超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。