Bendi新闻
>
谷歌最强开源大模型亮相!Gemini技术下放,笔记本就能跑,可商用

谷歌最强开源大模型亮相!Gemini技术下放,笔记本就能跑,可商用

4月前
明敏 发自 凹非寺
量子位 | 公众号 QbitAI

谷歌大模型,开源了!

一夜之间,Gemma系列正式上线,全面对外开放。

它采用Gemini同款技术架构,主打开源和轻量级,免费可用、模型权重开源、允许商用,同时笔记本可跑

共有2B和7B两个版本,性能全面超越开源标杆Llama 2。

每种规模都有预训练和指令微调版本,可在Kaggle、Colab Notebook、Google Cloud中访问。

而且支持JAX、PyTorch和TensorFlow通过原生Keras 3.0进行推理和监督式微调(SFT),适应多种开发需求和环境。得益于对JAX的支持,它还能进行快速推理。

目前模型也同步上线Hugging Chat,可在线体验试玩。

发布几个小时里,Gemma火速成为圈内最热话题,成为议论焦点。

Keras作者François Chollet高呼:最强开源大模型,刚刚易主。

大神卡帕西第一时间赶来解析技术报告。

AI圈内大佬更是表示,谷歌做开源是明智之举啊。

网友们都很兴奋,已经有人开始问考虑推出更多语言版本吗?

还有人提出2B的规模,是不是意味着也能支持安卓/iOS本地推理?

多性能超越同规模开源模型

具体来看Gemma的技术报告。

在18个任务中,Gemma在11个任务上表现优于同规模优质开源模型。

Gemma包含两种规格。

7B版本参数量约78亿,面向GPU和TPU上的高效部署和开发,2B版本参数量约25亿,用于CPU和端侧应用程序。

它基于Transformer解码器架构,关键模型参数如下。


相比于基础Transformer,Gemma进行了一些升级。

7B版本使用多头注意力机制,2B版本使用多查询注意力机制。

在每一层中使用旋转位置嵌入代替绝对位置嵌入;使用GeGLU激活函数替代标准ReLU非线性。

同时对每一个子层的输入和输出都进行归一化。

Gemma 2B/7B分别使用了2T和6T token进行训练,主要来自网络文档、数学和代码,不过这些数据不是多模态的。

为了兼容,谷歌使用了Gemini的SentencePiece tokenizer子集,它可以分割数字,不删除额外的空格,并对未知token进行字节级编码。

大神卡帕西关注了Tokenizer部分,他表示,Gemma的tokenizer和Llama 2的不同,但和GPT一致。

François Chollet认为Gemma最大的特点是谷歌拥有SOTA级测试集过滤机制,这意味着基准数据能相当准确地反映了模型在实际环境中的表现。

谷歌也报告了Gemma在MMLU等基准上的表现。

最后,谷歌还强调了Gemma的安全隐私性能。

实验数据显示Gemma不会存储敏感数据,但可能会记住一些潜在隐私数据。不过报告表示这个数据可能因为工具原因有所误报。

网友已开始实测

开放以后不少网友已经上手实测Gemma。

有人反馈写代码的速度非常快。

关于技术细节的讨论也很多。

不少人关注到Gemma做到了“以小博大”,2B版本性能超越Mistral2 7B。

也有人觉得Gemma使用的数据量有点大……

但对于谷歌开放模型的态度,大家是一律拍手称赞。

通过几十个开源项目,每个人都有机会打败巨头。

现在压力再次给到“CloseAI”……

也有人猜测,按照两大巨头互掐的规律,OpenAI新大招可能就在路上了。

参考链接:
[1]
https://ai.google.dev/gemma
[2]https://x.com/Jason/status/1760331908762751330?s=20
[3]https://twitter.com/karpathy/status/1760350892317098371

报名中!

2024年值得关注的AIGC企业&产品

量子位正在评选2024年最值得关注的AIGC企业、 2024年最值得期待的AIGC产品两类奖项,欢迎报名评选

评选报名截至2024年3月31日 

中国AIGC产业峰会同步火热筹备中,了解更多请戳:在这里,看见生成式AI的应用未来!中国AIGC产业峰会来啦!

商务合作请联络微信:18600164356 徐峰

活动合作请联络微信:18801103170 王琳玉


点这里👇关注我,记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

来源:量子位

相关新闻

GPT-4级模型Grok开源可商用!卷底层大模型的公司危了谷歌开源系模型第二代免费开放!27B媲美LLaMA3 70B,单H100或TPU主机可跑谷歌深夜爆最强复仇杀器,超大杯Gemini Ultra硬刚GPT-4!19.99美元包月,84页技术报告更新单张A100全精度推理!谷歌明星开源模型Gemma 2上新9B/27B,挑战3140亿Grok-1贾玲公开瘦身食谱;马云妻子被曝在新加坡购房;报告称养娃到本科毕业平均花费68万元;谷歌发布开源AI大模型Gemma...国产多模态大模型开源!无条件免费商用,性能超Claude 3 SonnetAI搜索引擎来了!谷歌放大招,发布最强AI模型,语音功能正面刚OpenAI0门槛免费商用!孟子3-13B大模型正式开源,万亿token数据训练腾讯混元文生图大模型全面开源!Sora同架构,更懂中文,免费商用首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用谷歌重磅提出Med-Gemini :医学大模型里程碑之作!医学航母正式起航!国产开源模型标杆大升级,重点能力比肩ChatGPT!书生·浦语2.0发布,支持免费商用AI早知道|马斯克Grok大模型开源;荣耀正式发布首款AI PC;苹果谷歌和OpenAI商谈iPhone大模型使用谷歌放大招,AI搜索引擎来了,发布最强AI模型!发布会现场:总共提了120次AI、视频模型登场......美国拟限制“开源 AI 大模型出口”;百度副总裁“狼性职场言论”惹争议,李彦宏情绪激动点评;谷歌一半员工没干活?| Q资讯被 Sora 抢了风头的谷歌“杀”回来了!谷歌的一群“书呆子”卷出了最强开放模型 Gemma被Sora抢了风头的谷歌“杀”回来了!谷歌的一群“书呆子”卷出了最强开放模型GemmaOpenAI再压谷歌一头,最强模型GPT-4o免费发布,语言对话媲美人类反应画个圈就能搜索!谷歌Gemini Pro植入旗舰,开启手机AI大战刚刚,全球第一家盈利的大模型公司IPO!前谷歌科学家创业12年,红杉、真格押注开箱黑盒LLM!谷歌大一统框架Patchscopes实战教程来了最新大模型论文合集!谷歌/微软/Meta/苹果/英伟达/阿里最新研究报告!雷军、周鸿祎两会力挺大模型,隔壁印度GenAI却要被谷歌Gemini“扼杀”?全新开源AI代码工具诞生!超越谷歌DeepMind旗下AlphaCode
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。