Bendi新闻
>
马斯克正式开源 Grok-1,成为全球最大的开源大模型

马斯克正式开源 Grok-1,成为全球最大的开源大模型

8月前

今日凌晨,在一片质疑声中,信守承诺的马斯克卡在最后一日正式开源了 GroK。
好消息是, 马斯克开源了 Grok 1.0 的完整代码,坏消息是,关于模型完整的训练过程和细节却是一点也没透露,这就好比给你一本详尽的教科书让你自学成才。
另外,藏着掖着的 Grok 1.5 也没有发布,相信届时会给我们带来一波大惊喜。
本次开源的 Grok 1.0 是拥有 314B 参数的先进混合专家模型,也是截至目前参数量最大的开源大型语言模型,其规模相当于 Meta LlaMA 2 70B 的 4.4 倍。
模型是由 xAI 团队利用定制的训练技术栈,在 JAX 和 Rust 的基础上从零开始构建的,包含了 Grok 1.0 在 2023 年 10 月完成预训练阶段时的基础模型数据。
这也意味着该模型尚未对任何特定应用(如对话系统)进行微调,所以在处理特定任务时的表现甚至不如一些专门为任务微调过的模型。
根据 Apache 2.0 许可协议, 现在公众可以自由访问模型的权重和架构。以下是关于 Grok 1.0 的一些关键信息:

模型参数数量高达 314B

混合专家模型(MoE 架构)

每一个数据单元由 2 位专家处理

嵌入向量的维度为 6144

采用旋转式嵌入表示

最大序列长度为 8192 个数据单元,以处理更长的上下文信息
在 MMLU、GSM8K 等一系列的基准测试中,Grok 1 的表现远胜于 LLaMA 2 70B,但和 Claude 2 以及 GPT-4 仍有不小的差距。
Grok 1.0 开源之后,网友用 AI 恶搞了一段扎克伯格揶揄 Grok 开源的视频。
AI 版的扎克伯格调侃道,「Grok 的开源并没有给人留下真正深刻的印象,3140 亿参数太多了,你需要一堆 H100,不过我已经买下了。」

一向爱「套壳」热门模型的 Perplexity AI 创始人,也第一时间在 X 上宣称将对该模型进行微调,以增强其在对话搜索方面的表现,并提供给所有 Pro 用户。
英伟达高级科学家 Jim Fan 则对这个模型展现出了浓厚的兴趣。
网友还发现了一个有趣的细节:xAI 团队似乎为了体现其「理解宇宙」的宏伟理念,特意将模型的参数量设定为与圆周率相关的「314B」。
但也有网友质疑, Grok 的开源更像是一场作秀,并指出 Grok 1.0 在实用性或性能上存在局限,甚至达不到公司商业的产品标准。
马斯克自然不会放过这个贴脸输出的大好机会,对着 ChatGPT APP 官方账号揶揄道,「告诉我们更多关于 OpenAI 的『Open』部分......」
配上网友的玩梗图有种莫名的喜感
OpenAI CEO Sam Altman 则发了一条耐人寻味的推文。
尽管 Grok 1.0 因为庞大的模型体量和对计算资源的高需求而面临诸多局限,使得哪怕是开源社区在实际应用之前,也需要经过复杂的微调和优化过程。
但不可否认的是,Grok 仍然是一个值得铭记的历史性时刻,也是迈向开源 AGI 的重要一步。
附上 xAI 官方博客:https://x.ai/blog/grok-os



微信扫码关注该文公众号作者

来源:APPSO

相关新闻

黄仁勋扔出的算力核弹​是堆叠吗?马斯克开源的大模型Grok才是全球最大吗?马斯克发布全球最大开源模型Grok-1马斯克宣布正式开源大语言模型Grok;人体避免多个精子使一个卵子受精的机制揭示 | 环球科学要闻许家印组织造假被罚4700万;马斯克开源大模型Grok-1;侯毅正式卸任盒马CEO;英伟达推出最强AI芯片...马斯克发全球最大开源模型!3140亿参数的Grok真打脸OpenAI了?马斯克打脸OpenAI,全球最大巨无霸模型Grok-1开源!3140亿参数8个MoE,GitHub狂揽6k星AI早知道|马斯克Grok大模型开源;荣耀正式发布首款AI PC;苹果谷歌和OpenAI商谈iPhone大模型使用刚刚!马斯克开源 Grok:参数量近 Llama 四倍,成全球最大开源模型P70系列有3或4款新品;国内首个开源千亿参数MoE大模型来了,对标马斯克的Grok……OpenAI有望在今年夏季推出GPT-5;英伟达推出更强GPU芯片;马斯克宣布正式开源Grok-1|AIGC周观察第三十七期1至2月社零总额增长5.5%,马斯克突然开源大模型 | 财经日日评AI进化太快了,马斯克开源Grok-1,爆火!马斯克开源Grok-1,OpenAI如何应对?|【经纬低调分享】AI早知道|360智脑7B大模型开源;ChatGPT 的全球增长率逐渐下降马斯克加入了开源大模型阵营终于来了!中国首个接入大模型的Linux开源操作系统正式发布!GPT-4级模型Grok开源可商用!卷底层大模型的公司危了开源日报 | 马斯克的梗图满天飞;deepin V23发布;谷歌前CEO大爆料;网传海思可能脱离华为独立;滴滴开源Unify周鸿祎向李彦宏“开炮”:有些名人胡说八道别被忽悠了;全球最强开源大模型Llama 3发布:最大模型参数将超4000亿丨AI周报苹果开源大模型OpenELM来了,或将用在下一代iPhone上;红杉入局,传马斯克AI公司将获60亿美元投资丨AI周报最强开源大模型深夜炸场! Llama 3 王者归来,直逼 GPT-4, 马斯克点赞 | 附体验链接马斯克称每年要投资数十亿美元在AI硬件上;Meta发布开源大模型Code Llama 70B丨AIGC日报开源日报 | 马斯克为何要作开源 “秀”;当初质疑倪光南的人,今天果然被打脸;Java 22正式GA;压缩的二三事国内首个开源千亿参数MoE大模型来了!性能超Grok-1,单张GPU可跑
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。