AI芯片里程碑,每秒1000个token
👆如果您希望可以时常见面,欢迎标星🌟收藏哦~
来源:内容由半导体行业观察(ID:icbank)编译自venturebeat,谢谢。
没有一个简单的速度计可以测量生成式 AI 模型的速度,但主要方法之一是测量模型每秒处理多少个 token 。
今天,SambaNova Systems宣布,它在新一代人工智能性能方面取得了新的里程碑,使用Llama 3 8B 参数指令模型实现了每秒 1,000 个token的惊人速度。到目前为止,Groq 宣称Llama 3 的最快基准为每秒 800 个令牌。每秒 1,000 个token的里程碑由测试公司Artificial Analysis独立验证。更快的速度对企业具有诸多影响,可能带来重大的业务效益,例如更快的响应时间、更好的硬件利用率和更低的成本。
“我们看到人工智能芯片竞赛以比大多数人预期更快的速度加速,我们很高兴在我们独立进行的基准测试中验证了 SambaNova 的说法,这些基准测试侧重于对现实世界性能进行基准测试,”Artificial Analysis 联合创始人 George Cameron 告诉 VentureBeat。“人工智能开发人员现在有更多硬件选项可供选择,对于那些依赖速度的用例(包括人工智能代理、需要低响应时间和大量文档解释的消费者人工智能应用程序)来说,这尤其令人兴奋。”
在硬件方面,该公司开发了一种称为可重构数据流单元 (RDU) 的 AI 芯片。RDU 与 Nvidia AI 加速器非常相似,既可用于训练,也可用于推理。SambaNova 特别注重使其 RDU 适用于企业工作负载和模型微调。该公司的最新芯片是 SN40L,于2023 年 9 月发布。
在硅片之上,SambaNova 构建了自己的软件堆栈,其中包括2 月 28 日首次发布的Samba-1 模型。Samba -1 是一个 1 万亿参数模型,也称为 Samba-CoE(专家组合)。CoE 方法使企业能够组合使用多个模型,也可以单独使用,并根据公司数据对模型进行微调和训练。
对于 1000t/s 的速度,SambaNova 实际上使用了其 Samba-1 Turbo 模型,这只是已提供用于测试的 API 版本。该公司计划在未来几周内将速度更新纳入其企业主线模型。Cameron 提醒说,Groq 测量的 800 t/s 是其公共 API 共享端点,而 SambaNova 是专用私有端点。因此,他指出他的公司不建议直接比较它们,因为它们并不完全是同类产品。
“话虽如此,这比我们所基准测试的 API 提供商的平均输出令牌/秒速度快 8 倍以上,比 Nvidia H100s 上可实现的典型输出令牌/秒速度快数倍,”Cameron 说。
SambaNova 性能的关键在于其可重构数据流架构,这是该公司 RDU 硅技术的核心。
可重构数据流架构使 SambaNova 能够通过编译器映射优化各个神经网络层和内核的资源分配。
SambaNova 首席执行官兼创始人 Rodrigo Liang 告诉 VentureBeat:“借助数据流,你可以不断改进这些模型的映射,因为它是完全可重新配置的。因此,随着软件的改进,你获得的收益不是增量的,而是相当可观的,无论是在效率方面还是在性能方面。”
当 Llama 3 首次推出时,Liang 的团队就运行了它,最初在 Samba-1 上的性能为每秒 330 个令牌。Liang 表示,通过过去几个月的一系列优化,这一速度已提高两倍,达到目前每秒 1000 个令牌的最高水平。Liang 解释说,优化是一个平衡内核之间资源分配的过程,以避免瓶颈并最大限度地提高整个神经网络管道的吞吐量。SambaNova 在其软件堆栈中采用的基本方法与此相同,可帮助企业优化自己的微调工作。
Liang强调,SambaNova 采用 16 位精度来实现其速度里程碑,从而提供企业所需的更高质量水平。
他指出,对于企业用户来说,降低到 8 位精度不是一个选择。
“对于我们的客户群,我们一直在提供 16 位产品,因为他们非常关心质量,并且我们希望确保最大限度地减少幻觉。”
出于多种原因,速度对企业用户来说尤其重要。随着组织越来越多地转向基于 AI 代理的工作流程(一个模型流入下一个模型),速度比以往任何时候都更加重要。加快速度也具有经济动机。
“我们生产的速度越快,就能腾出更多的机器供其他人使用,”他说。“所以这实际上最终就是通过压缩基础设施来降低成本。”
SambaNova 的 Samba-1 Turbo 在 LLM 速度测试中胜过 NVIDIA
生成式 AI 解决方案公司SambaNova Systems是 Artificial Analysis 最新大型语言模型 (LLM) 基准的明显赢家。Samba-1 Turbo 以每秒超过 1000 个 token 的速度位居Leaderboad榜首,创下了 Llama 3 8B 性能的新纪录。
SambaNova 首席执行官兼创始人 Rodrigo Liang 表示:“我们的使命是为每家企业提供成本更低的定制 AI 系统。开发人员需要快速且不影响准确性的推理速度,以便将个性化 LLM 的强大功能交到组织手中,从而简化工作流程并加快创新速度。”
人工智能分析联合创始人兼首席执行官 Micah Hill-Smith 表示:“SambaNova 的 Samba-1 Turbo 在人工智能分析最近的基准测试中创下了大型语言模型推理性能的新纪录。”
Artificial Analysis 已独立对 Samba-1 Turbo 在 Meta 的 Llama 3 Instruct (8B) 上的性能进行了基准测试,其输出速度为每秒 1,084 个token,比我们基准测试的供应商的平均输出速度快 8 倍以上。Artificial Analysis 已验证 Samba-1 Turbo 上的 Llama 3 Instruct (8B) 可实现与 16 位精度一致的质量分数。
语言模型推理速度的新前沿开启了构建 AI 应用程序的新方式。新兴用例包括代理采取多步骤操作,同时保持无缝对话、实时语音体验和大量文档解释。”
与在数百块芯片上运行相同模型的竞争对手不同,Samba-1 Turbo仅在 16 块芯片上以每秒 1000 个token (t/s) 的速度运行 Llama 3 8B,并且可以在单个 16 插槽 SN40L 节点上同时托管多达 1000 个 Llama3 检查点。这是服务 Llama 3 的最快速度,同时保持完全精度,成本远低于竞争对手。由于内存容量限制,最接近的竞争对手需要数百块芯片来运行每个模型的单个实例,而 GPU 提供的总吞吐量和内存容量较低。SambaNova 可以在单个节点上运行数百个模型,同时保持这一创纪录的速度,总拥有成本比竞争对手低 10 倍。
“Samba-1 Turbo 的速度展现了 Dataflow 的魅力,它简化了 SN40L 芯片上的数据移动,最大限度地减少了延迟,并最大限度地提高了处理吞吐量。它比 GPU 更胜一筹——结果是即时 AI,”SambaNova Systems 联合创始人、斯坦福大学知名计算机科学家 Kunle Olukotun 表示。
参考链接
https://venturebeat.com/ai/sambanova-breaks-llama-3-speed-record-with-1000-tokens-per-second/
END
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3781期内容,欢迎关注。
推荐阅读
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
微信扫码关注该文公众号作者