Bendi新闻
>
Stability AI发布Stable Code 3B模型,没有GPU也能本地运行

Stability AI发布Stable Code 3B模型,没有GPU也能本地运行

10月前
机器之心报道
编辑:陈萍、小舟
Stable Code 3B 的性能优于类似大小的代码模型,并且与 CodeLLaMA 7B 的性能相当,尽管其大小只有 CodeLLaMA 7B 的 40%。


在文生图领域大火的 Stability AI,今天宣布了其 2024 年的第一个新 AI 模型:Stable Code 3B。顾名思义,Stable Code 3B 是一个拥有 30 亿参数的模型,专注于辅助代码任务。 


无需专用 GPU 即可在笔记本电脑上本地运行,同时仍可提供与 Meta 的 CodeLLaMA 7B 等大型模型具有竞争力的性能。



2023 年底,Stability AI 便开始推动更小、更紧凑、更强大模型的发展,比如用于文本生成的 StableLM Zephyr 3B 模型。


随着 2024 年的到来,Stability AI 开年便马不停蹄的发布 2024 年第一个大型语言模型 Stable Code 3B,其实这个模型早在去年八月就发布了预览版 Stable Code Alpha 3B,此后 Stability AI 一直在稳步改进该技术。新版的 Stable Code 3B 专为代码补全而设计,具有多种附加功能。


与 CodeLLaMA 7b 相比,Stable Code 3B 大小缩小了 60%,但在编程任务上达到了与前者相媲美的性能。



Stable Code 3B 在 MultiPL-E 基准上实现了 SOTA 性能(与类似大小的模型相比),例如 Stable Code 3B 在 Python、C++、JavaScript、Java、PHP 和 Rust 编程语言上的性能优于 StarCoder。



研究介绍


Stable Code 3B 基于 Stable LM 3B 训练而成,而 Stable LM 3B 训练 token 数达到 4 万亿,更进一步的,Stable Code 使用了软件工程中特定的数据(包括代码)进行训练。

Stable Code 3B 提供了更多的特性,即使跨多种语言也表现良好,还兼具其他优势,比如支持 FIM(Fill in the Middle ,一种新的训练技巧)功能,还能扩展上下文大小。基础 Stable Code 在多达 16,384 个 token 序列上进行训练,遵循与 CodeLlama 类似的方法,即采用旋转嵌入(Rotary Embeddings),这种方法可以选择性的允许修改多达 1,000,000 个旋转基(rotary base),进一步将模型的上下文长度扩展到 100k 个 token。


在模型架构方面,Stable Code 3B 模型是一个纯解码器的 transformer,类似于 LLaMA 架构,并进行了以下修改:



  • 位置嵌入:旋转位置嵌入应用于头嵌入维度的前 25%,以提高吞吐量;

  • Tokenizer:使用 GPTNeoX Tokenizer.NeoX 的修改版本,添加特殊 token 来训练 FIM 功能,例如 < FIM_PREFIX>、<FIM_SUFFIX > 等。


训练


训练数据集


Stable Code 3B 的训练数据集由 HuggingFace Hub 上提供的开源大规模数据集过滤混合组成,包括 Falcon RefinedWeb、CommitPackFT、Github Issues、StarCoder,并进一步用数学领域的数据补充训练。


训练基础设施


  • 硬件:Stable Code 3B 在 Stability AI 集群上使用 256 个 NVIDIA A100 40GB GPU 进行训练。

  • 软件:Stable Code 3B 采用 gpt-neox 的分支,使用 ZeRO-1 在 2D 并行性(数据和张量并行)下进行训练,并依赖 flash-attention、SwiGLU、FlashAttention-2 的旋转嵌入内核。


最后,我们看一下 Stable Code 3B 的性能表现:




关于 Stable Code 3B 更详细的技术报告会在之后发布,大家可以期待一下。


参考链接:https://stability.ai/news/stable-code-2024-llm-code-completion-release?continueFlag=ff896a31a2a10ab7986ed14bb65d25ea




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


微信扫码关注该文公众号作者

来源:机器之心

相关新闻

Stability AI发布全新代码模型Stable Code 3B!媲美70亿Code Llama,没GPU也能跑大佬出走后首个发布!Stability官宣代码模型Stable Code Instruct 3B集体出走的Stability AI 发布全新代码大模型,3B以下性能最优,超越Code Llama和DeepSeek-CoderAI早知道|阿里推新项目MotionShop;Stability AI发布代码模型;Win11新增AI生成图像功能AI早知道|Stability AI发布最新代码模型;国内首个AI综艺导演亮相;英特尔商用客户端AI PC产品发布Stability AI开源3B代码生成模型:可补全,还能DebugAI早知道|Stability AI推出最小模型;国内首个视频大模型通过备案;内蒙古首个AI大模型工业互联网平台发布骁龙最强AI芯能力下放:小旗舰8s发布,端侧运行10B大模型,小米Civi首发开源模型穷途末路?Stability AI欠下1亿美元,四处寻求「卖身」...开源模型穷途末路?Stability AI欠下1亿美元,四处找钱寻求「卖身」喜发新模型,却被众嘲是破产“前兆”!Stability AI “最强”模型人形绘制太“阴间”,网友:因为研发太讲武德用 1000 行 C 代码手搓了一个大模型,Mac 即可运行,特斯拉前AI总监爆火科普 LLM曝小扎写信“挖角”DeepMind;我国10亿级参数大模型超百个;Stability AI开源代码生成模型丨AIGC大事日报AI早知道|首款基于文心大模型的学习机Z30;Stability AI 推出聊天机器人Stability AI开年首个大模型:专写代码,支持18种编程语言,上下文100K,苹果笔记本离线就能跑不玩“期货”的快手接棒Stability AI,国产之光可图大模型Kolors领跑开源生态Stability AI开源47秒音频生成模型,虫鸣鸟叫、摇滚、鼓点都能生成面临资金短缺的Stability AI获得新投资,任命新CEO;OpenAI首席技术官:GPT-5将在一年半后发布丨AIGC日报AI早知道|Stability AI 资金危机或考虑出售;腾讯混元大模型支持 16s 视频生成Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩黑匣子被打开了!能玩的Transformer可视化解释工具,本地运行GPT-2、还可实时推理Stability AI巨亏拟卖身,Autodesk公布AIGC 3D建模工具BerniniStability AI让更多的开发者可以访问其下一代文本到图像生成器法律翻译︱艺术家集体起诉Stability AI等公司著作权侵权:法院驳回大部分诉请?
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。