Bendi新闻
>
马斯克开源Grok-1,OpenAI如何应对?|【经纬低调分享】

马斯克开源Grok-1,OpenAI如何应对?|【经纬低调分享】

8月前

马斯克又一次兑现了他的承诺。

凌晨,马斯克在社交媒体平台X上官宣:xAI开源Grok。目前,Grok 已经在 GitHub 上拿到超4k颗Star。官方信息显示,此次开源的Grok-1是一个3140亿参数的混合专家模型——就是说,这是当前参数量最大的开源模型。

开源大战一触即发。同样在今天,Colossal-AI团队全面开源全球首个类Sora架构视频生成模型「Open-Sora 1.0」——涵盖了整个训练流程,包括数据处理、所有训练细节和模型权重。

关于开源还是闭源,AI领域一直存在争论。某些人认为,开源模型会比闭源模型落后一个代际,另一些人则坚持认为,开源的利大于弊。纽约时报点评道,开源Gork背后的原始代码,是这个世界上最富有的人控制AI未来战斗的升级。那么,开源究竟能为大家带来什么?以下,Enjoy:

 

来源丨机器之心、新智元

说到做到,马斯克承诺的开源版大模型 Grok 终于来了!

今天凌晨,马斯克旗下大模型公司 xAI 宣布正式开源 3140 亿参数的混合专家(MoE)模型「Grok-1」,以及该模型的权重和网络架构。

这也使得Grok-1成为当前参数量最大的开源大语言模型。

封面图根据 Grok 提示使用 Midjourney 生成的:神经网络的 3D 插图,具有透明节点和发光连接,以不同粗细和颜色的连接线展示不同的权重。

这个时候,马斯克当然不会忘了嘲讽 OpenAI 一番,「我们想了解更多 OpenAI 的开放部分」。


回到模型本身,Grok-1 从头开始训练,并且没有针对任何特定应用(如对话)进行微调。相对的,在 X(原 Twitter)上可用的 Grok 大模型是微调过的版本,其行为和原始权重版本并不相同。

Grok-1 的模型细节包括如下:

  • 基础模型基于大量文本数据进行训练,没有针对任何具体任务进行微调;
  • 3140 亿参数的 MoE 模型,在给定 token 上的激活权重为 25%;
  • 2023 年 10 月,xAI 使用 JAX 库和 Rust 语言组成的自定义训练堆栈从头开始训练。

xAI 遵守 Apache 2.0 许可证来开源 Grok-1 的权重和架构。Apache 2.0 许可证允许用户自由地使用、修改和分发软件,无论是个人还是商业用途。项目发布短短四个小时,已经揽获 3.4k 星标,热度还在持续增加。

项目地址 https://github.com/xai-org/grok-1

该存储库包含用于加载和运行 Grok-1 开放权重模型的 JAX 示例代码。使用之前,用户需要确保先下载 checkpoint,并将 ckpt-0 目录放置在 checkpoint 中, 然后,运行下面代码进行测试:

pip install -r requirements.txtpython run.py

项目说明中明确强调,由于 Grok-1 是一个规模较大(314B 参数)的模型,因此需要有足够 GPU 内存的机器才能使用示例代码测试模型。此外,该存储库中 MoE 层的实现效率并不高,之所以选择该实现是为了避免需要自定义内核来验证模型的正确性。

用户可以使用 Torrent 客户端和这个磁力链接来下载权重文件:

magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

看到这,有网友开始好奇 314B 参数的 Grok-1 到底需要怎样的配置才能运行。对此有人给出答案:可能需要一台拥有 628 GB GPU 内存的机器(每个参数 2 字节)。这么算下来,8xH100(每个 80GB)就可以了。


知名机器学习研究者、《Python 机器学习》畅销书作者 Sebastian Raschka 评价道:「Grok-1 比其他通常带有使用限制的开放权重模型更加开源,但是它的开源程度不如 Pythia、Bloom 和 OLMo,后者附带训练代码和可复现的数据集。」


DeepMind 研究工程师 Aleksa Gordié 则预测,Grok-1 的能力应该比 LLaMA-2 要强,但目前尚不清楚有多少数据受到了污染。另外,二者的参数量也不是一个量级。


还有一位推特用户 @itsandrewgao 详细分析了 Grok-1 的架构细节,并做出了以下几点总结。


首先 Grok-1 是 8 个专家的混合(2个活跃)、860亿激活参数(比Llama-2 70B还多),使用旋转嵌入而非固定位置嵌入。


tokenizer 词汇大小为 131,072(类似于 GPT-4)2^17,嵌入大小 6,144 (48*128),64 个 transformer 层(sheesh), 每层都有一个解码器层:多头注意力块和密集块,键值大小 128。


多头注意力块:48个head 用于查询,8个用于键 / 值(KV)。KV 大小为 128。密集块(密集前馈块):加宽因子8,隐藏层大小 32768。每个 token 从8个专家中选择2个。


旋转位置嵌入大小为 6144,与输入嵌入大小相同。上下文长度为 8192 tokens,精度为 bf16。


此外还提供了一些权重的 8bit 量化内容。


当然,我们还是希望 xAI 官方能够尽快公布 Grok-1 的更多模型细节。

01
Grok-1 是个什么模型?能力如何?

Grok 是马斯克 xAI 团队去年 11 月推出的一款大型语言模型。在去年 11 月的官宣博客中(参见《马斯克 xAI 公布大模型详细进展,Grok 只训练了 2 个月》), xAI 写道:

Grok 是一款仿照《银河系漫游指南》设计的 AI,可以回答几乎任何问题,更难能可贵的是,它甚至可以建议你问什么问题!

Grok 在回答问题时略带诙谐和叛逆,因此如果你讨厌幽默,请不要使用它!

Grok 的一个独特而基本的优势是,它可以通过 X 平台实时了解世界。它还能回答被大多数其他 AI 系统拒绝的辛辣问题。

Grok 仍然是一个非常早期的测试版产品 —— 这是我们通过两个月的训练能够达到的最佳效果 —— 因此,希望在您的帮助下,它能在测试中迅速改进。

xAI 表示,Grok-1 的研发经历了四个月。在此期间,Grok-1 经历了多次迭代。

在公布了 xAI 创立的消息之后,他们训练了一个 330 亿参数的 LLM 原型 ——Grok-0。这个早期模型在标准 LM 测试基准上接近 LLaMA 2 (70B) 的能力,但只使用了一半的训练资源。之后,他们对模型的推理和编码能力进行了重大改进,最终开发出了 Grok-1,这是一款功能更为强大的 SOTA 语言模型,在 HumanEval 编码任务中达到了 63.2% 的成绩,在 MMLU 中达到了 73%。

xAI 使用了一些旨在衡量数学和推理能力的标准机器学习基准对 Grok-1 进行了一系列评估:



在这些基准测试中,Grok-1 显示出了强劲的性能,超过了其计算类中的所有其他模型,包括 ChatGPT-3.5 和 Inflection-1。只有像 GPT-4 这样使用大量训练数据和计算资源训练的模型才能超越它。xAI 表示,这展示了他们在高效训练 LLM 方面取得的快速进展。

不过,xAI 也表示,由于这些基准可以在网上找到,他们不能排除模型无意中在这些数据上进行了训练。因此,他们在收集完数据集之后,根据去年 5 月底(数据截止日期之后)公布的 2023 年匈牙利全国高中数学期末考试题,对他们的模型(以及 Claude-2 和 GPT-4 模型)进行了人工评分。结果,Grok 以 C 级(59%)通过考试,Claude-2 也取得了类似的成绩(55%),而 GPT-4 则以 68% 的成绩获得了 B 级。xAI 表示,他们没有为应对这个考试而特别准备或调整模型。


下面这个表格展示了 Grok-1 的更多信息(来自 2023 年 11 月的博客,部分信息可能存在更新):

  • 模型细节:Grok-1 是一个基于 Transformer 的自回归模型。xAI 利用来自人类和早期 Grok-0 模型的大量反馈对模型进行了微调。初始的 Grok-1 能够处理 8192 个 token 的上下文长度。模型于 2023 年 11 月发布。
  • 预期用途:Grok-1 将作为 Grok 背后的引擎,用于自然语言处理任务,包括问答、信息检索、创意写作和编码辅助。
  • 局限性:虽然 Grok-1 在信息处理方面表现出色,但让人类检查 Grok-1 的工作以确保准确性至关重要。Grok-1 语言模型不具备独立搜索网络的能力。在 Grok 中部署搜索工具和数据库可以增强模型的能力和真实性。尽管可以访问外部信息源,但模型仍会产生幻觉。
  • 训练数据:Grok-1 发布版本所使用的训练数据来自截至 2023 年第三季度的互联网数据和 xAI 的 AI 训练师提供的数据。
  • 评估:xAI 在一系列推理基准任务和国外数学考试试题中对 Grok-1 进行了评估。他们与早期 alpha 测试者合作,以评估 Grok-1 的一个版本,包括对抗性测试。目前,Grok 已经对一部分早期用户开启了封闭测试访问权限,进一步扩大测试人群。


在博客中,xAI 还公布了 Grok 的构建工程工作和 xAI 大致的研究方向。其中,长上下文的理解与检索、多模态能力都是未来将会探索的方向之一。

xAI 表示,他们打造 Grok 的愿景是,希望创造一些 AI 工具,帮助人类寻求理解和知识。

具体来说,他们希望达到以下目标: 

  • 收集反馈,确保他们打造的 AI 工具能够最大限度地造福全人类。他们认为,设计出对有各种背景和政治观点的人都有用的 AI 工具非常重要。他们还希望在遵守法律的前提下,通过他们的 AI 工具增强用户的能力。Grok 的目标是探索并公开展示这种方法;
  • 增强研究和创新能力:他们希望 Grok 成为所有人的强大研究助手,帮助他们快速获取相关信息、处理数据并提出新想法。

他们的最终目标是让他们的 AI 工具帮助人们寻求理解。

在 X 平台上,Grok-1 的开源已经引发了不少讨论。值得注意的是,技术社区指出,该模型在前馈层中使用了 GeGLU,并采用了有趣的 sandwich norm 技术进行归一化。甚至 OpenAI 的员工也发帖表示对该模型很感兴趣。


不过,开源版 Grok 目前还有些事情做不到,比如「通过 X 平台实时了解世界」,实现这一功能目前仍需要订阅部署在 X 平台上的付费版本。

鉴于马斯克对开源的积极态度,有些技术人员已经在期待后续版本的开源了。


02
马斯克为何选择开源

在数次嘲讽OpenAI是「CloseAI」之后,马斯克果真选择了开源自家大模型。


当然,这背后肯定也有商业上的考量。


作为市场领导者的OpenAI,是没有理由开源ChatGPT背后模型代码的。


现在,通过发布Grok的代码,马斯克将自己牢牢扎根在后者的阵营中。这一决定,或许能让他的xAI超越Meta和Mistral AI。


Llama的开源给Meta带来了很多好处,几乎让小扎从元宇宙的泥潭爬了出来。



而仅仅只是一个小型初创公司的Mistral AI,也因为自己的开源策略而声名鹊起,被业界公认为「欧洲的OpenAI」。



开源版本可能会鼓励开发者和潜在客户更快地采纳自己的模型,实际上起到了市场推广的作用。


开发者社区对Grok开源版本的反馈和改进也可能有助于xAI加速开发新版本,这些新版本xAI可以选择开放源代码或保留专有权。


比如像Mistral一样,承诺继续发布开源版本,同时为付费客户保留最先进的模型。


马斯克一直是开源技术的支持者,连Tesla也已经开放了汽车某些部分的源代码,而他的社交媒体平台X公开了一些用于内容排名的算法。


「还有工作要做,但这个平台已经是迄今为止最透明、最注重真相、不是高门槛的平台,」马斯克今天在回应对开源X推荐算法的评论时,这样说道。



尽管OpenAI目前在AI领域仍遥遥领先,但开源和闭源的战争还远远没有结束。



AI模型是否应该开源?某些人认为,必须防止这种强大技术免受闯入者的侵害,而另一些人则坚持认为,开源的利绝对大于弊。


作为市场领导者的OpenAI,是没有理由开源ChatGPT背后模型代码的。


现在,通过发布Grok的代码,马斯克将自己牢牢扎根在后者的阵营中。


这一决定,或许能让他的xAI最终超越Meta和Mistral AI。


参考资料:
https://x.ai/blog/grok-os
https://twitter.com/itsandrewgao/status/1769447551374156097
https://www.wired.com/story/elon-musk-no-choice-open-chatbot-grok/

也许你还想看:

经纬张颖:2023,不只克服困难而是习惯困难 

经纬徐传陞:做VC这么多年,人们总在问我同一个问题 

经纬张颖内部讲话:2024,四大关键决策

经纬2023年终盘点:Adaptability is the key to thriving


微信扫码关注该文公众号作者

来源:经纬创投

相关新闻

苹果免费使用ChatGPT,马斯克为何怒了?|【经纬低调分享】聪明人如何正确决策?|【经纬低调分享】一天只睡4小时,高手如何进化睡眠功能? |【经纬低调分享】从烘焙店女工到“女明星”,黄油小熊如何成为现象级IP? |【经纬低调分享】一分钱不花,他如何靠一辆竹子自行车环球骑行?|【经纬低调分享】OpenAI的人才库,为何挤满了新人? |【经纬低调分享】解压「捏捏」身价上万,如何抓住打工人的精神状态? |【经纬低调分享】如何从易疲劳体质变成一个精力充沛的人? |【经纬低调分享】如何抓住地震预警的黄金几秒? |【经纬低调分享】OpenAI有望在今年夏季推出GPT-5;英伟达推出更强GPU芯片;马斯克宣布正式开源Grok-1|AIGC周观察第三十七期马斯克“掀桌子”,AI大模型+自动驾驶会诞生什么? |【经纬低调研究】马斯克打脸OpenAI,全球最大巨无霸模型Grok-1开源!3140亿参数8个MoE,GitHub狂揽6k星马斯克发全球最大开源模型!3140亿参数的Grok真打脸OpenAI了?斯坦福紧急下架视频,谷歌前CEO施密特说了哪些真话? |【经纬低调分享】纸板床、奢侈品大秀、各国队服,谁是巴黎奥运会赛前最大亮点? |【经纬低调分享】每天只工作4小时,好不好?【经纬低调分享】俄罗斯人,挤爆三亚中医门诊?|【经纬低调分享】日本东京推出“官方Tinder”,生育率大跌下的紧急举措? |【经纬低调分享】打败“白人饭”,打工人开始吃盖浇饭减脂了?|【经纬低调分享】地球上最会赚钱的人,留下了哪些顶级判断力思维? |【经纬低调分享】当00后运营官方账号,动物快不够用了? |【经纬低调分享】当AI开始看图定位,你的位置不再是秘密? |【经纬低调分享】深夜焦虑的CEO看点什么? |【经纬低调分享】百年一遇都集中在2024年的4月了吗? |【经纬低调分享】
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。