Bendi新闻
>
每秒800个token,这颗AI芯片挑战英伟达

每秒800个token,这颗AI芯片挑战英伟达

6月前

👆如果您希望可以时常见面,欢迎标星🌟收藏哦~

来源:内容来自半导体行业观察(ID:icbank)编译自venturebeat,谢谢。

令人惊讶的基准测试结果可能会撼动人工智能推理的竞争格局,初创芯片公司Groq似乎通过一系列转发确认其系统正在以每秒超过 800 个token的速度为Meta 新发布的LLaMA 3 大型语言模型提供服务。


“我们已经对他们的 API 进行了一些测试,该服务绝对不如硬件演示所示的那么快。可能更多的是一个软件问题——仍然对 Groq 得到更广泛的使用感到兴奋,”一直在对 LLaMA 3 性能进行基准测试的工程师 Dan Jakaitis在 X.com 上发帖说


但根据 OthersideAI 联合创始人兼首席执行官 Matt Shumer 在 X.com 上发布的帖子,除了其他几位知名用户之外,Groq 系统还通过 LLaMA 3 模型提供了每秒超过 800 个tiken的闪电般的快速推理速度。如果经过独立验证,这将比现有的云人工智能服务实现重大飞跃。VentureBeat 自己的早期测试表明,这一说法似乎是正确的。 


针对人工智能优化的新型处理器架构


Groq 是一家资金雄厚的硅谷初创公司,一直在开发一种针对矩阵乘法运算进行优化的新型处理器架构,矩阵乘法运算是深度学习的计算核心。该公司的张量流处理器避开了传统 CPU 和 GPU 的缓存和复杂的控制逻辑,转而采用针对 AI 工作负载量身定制的简化、确定性执行模型。


Groq 声称,通过避免通用处理器的开销和内存瓶颈,它可以为人工智能推理提供更高的性能和效率。每秒 800 个token的 LLaMA 3 结果如果成立,将为这一说法提供可信度。


Groq 的架构与 Nvidia 和其他成熟芯片制造商使用的设计有很大不同。Groq 没有为人工智能采用通用处理器,而是构建了张量流处理器来加速深度学习的特定计算模式。


这种“干净的”方法使公司能够去除无关电路并优化人工智能推理的高度重复、可并行工作负载的数据流。Groq 断言,与主流替代方案相比,运行大型神经网络的延迟、功耗和成本显着降低。


对快速高效的人工智能推理的需求


每秒 800 个token的性能相当于每分钟约 48,000 个token,速度足以每秒生成约 500 个单词的文本。这比当今云中传统 GPU 上服务的大型语言模型的典型推理速度快了近一个数量级。


随着语言模型的参数规模增长到数千亿,快速高效的人工智能推理变得越来越重要。虽然训练这些大型模型需要大量计算,但经济高效地部署它们需要能够快速运行它们而不消耗大量电力的硬件。对于聊天机器人、虚拟助理和交互式体验等延迟敏感的应用程序来说尤其如此。


随着该技术得到更广泛的部署,人工智能推理的能源效率也受到越来越多的审查。数据中心已经是电力的重要消耗者,大规模人工智能的计算需求可能会大幅增加电力消耗。能够提供必要的推理性能同时最大限度地降低能耗的硬件将是人工智能大规模可持续发展的关键。Groq 的张量流处理器在设计时就考虑到了这种效率要求,与通用处理器相比,有望显着降低运行大型神经网络的功耗。


挑战Nvidia的统治地位


Nvidia 目前在 AI 处理器市场占据主导地位,其 A100 和 H100 GPU 为绝大多数云 AI 服务提供支持。但像 Groq、 Cerebras、SambaNova和Graphcore这样的一批资金雄厚的初创公司正在通过专门为人工智能构建的新架构来挑战这一主导地位。


在这些挑战者中,Groq 是最积极倡导针对推理和训练的挑战者之一。首席执行官 Jonathan Ross大胆预测,到 2024 年底,大多数 AI 初创公司将使用 Groq 的低精度张量流处理器进行推理。


Meta 发布的 LLaMA 3 被描述为功能最强大的开源语言模型之一,为 Groq 展示其硬件推理功能提供了一个备受瞩目的机会。Meta 声称该模型可与最好的闭源产品相媲美,可能会广泛用于基准测试并部署在许多人工智能应用程序中。


如果 Groq 的硬件能够比主流替代品更快、更高效地运行 LLaMA 3,那么这将支持这家初创公司的主张,并有可能加速其技术的采用。Groq 最近推出了一个新的业务部门,旨在通过云服务和合作伙伴关系让客户更轻松地使用其芯片。


LLaMA 等强大的开放模型与 Groq 等高效的“AI 优先”推理硬件相结合,可以使高级语言 AI 更具成本效益,并可供更广泛的企业和开发人员使用。但英伟达不会轻易放弃其领先地位,其他挑战者也在伺机而动。


可以肯定的是,基础设施建设的竞赛正在展开,这些基础设施能够跟上人工智能模型开发的爆炸性进展,并扩展技术以满足快速扩大的应用范围的需求。以可承受的成本实现近乎实时的人工智能推理可以为电子商务、教育、金融、医疗保健等领域带来变革的可能性。


正如一位 X.com 用户对 Groq 的 LLaMA 3 基准测试声明的反应:“速度 + 低成本 + 质量 = [现在] 使用其他任何东西都没有意义”。未来几个月将会揭晓这个大胆的方程式是否会发挥作用,但很明显,随着新一波架构挑战现状,人工智能的硬件基础远未解决。


请输入标题

https://venturebeat.com/ai/groqs-breakthrough-ai-chip-achieves-blistering-800-tokens-per-second-on-metas-llama-3/

点这里👆加关注,锁定更多原创内容

END


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。



今天是《半导体行业观察》为您分享的第3742期内容,欢迎关注。


推荐阅读


EUV光刻机重磅报告,美国发布

碳化硅“狂飙”:追赶、内卷、替代

芯片巨头,都想“干掉”工程师!

苹果,玩转先进封装

GPU的历史性时刻!

大陆集团,开发7nm芯片

张忠谋最新采访:中国会找到反击方法

EUV光刻的新“救星”

『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank

喜欢我们的内容就点“在看”分享给小伙伴哦

微信扫码关注该文公众号作者

来源:半导体行业观察

相关新闻

苏妈杀疯了:移动端最强NPU算力达50TOPS,最强AI芯片挑战英伟达AI芯片里程碑,每秒1000个token这国宣布! 立即与乌克兰断交; 拜登宣布佛罗里达州进入紧急状态; AI芯片被曝推迟发布? 英伟达回应一家AI芯片公司浮出水面,英伟达迎来新挑战者均价300万美元?英伟达GH200超级芯片落地9个超算中心,每秒两百亿亿次flopOpenAI 自研 AI 芯片最新进展曝光,曾百万年薪挖角 Google 人才,或将挑战「英伟达霸权」深度|曝英伟达 AI 芯片遇重大设计缺陷!微软 OpenAI 等巨头订单交付延迟至少三个月,全球尖端模型与应用发布都将受影响除了英伟达,AI芯片股还有三匹潜在黑马!下一代Xbox或内置独立AI芯片,英伟达微软演示“AI带玩家玩游戏”谷歌超 25 亿美金收购 Character AI;英伟达回应 AI 芯片遇重大设计缺陷:下半年增加量产丨AI情报局巴菲特“狂砍”近半苹果持仓!段永平:没有减持计划 但斌:有点吃惊;英伟达回应AI芯片......曝iPhone17全系配备2400万像素前置镜头/英伟达回应AI芯片推迟发布:不对谣言发表评论/樊振东获乒乓男单金牌,实现大满贯美股崩跌!英特尔股价创1982年以来最大跌幅;英伟达新AI芯片推迟发布;动力电池独角兽「正力新能」冲击港股IPO|一周市场盘点21岁郑钦文夺得网球女单金牌,手握劳力士等多个赞助;25亿美元独角兽CEO携30员工卖身谷歌;英伟达新AI芯片推迟三个月丨邦早报拜登要退选?OpenAI要和博通研发AI芯片,对抗英伟达!1个芯片顶英伟达3个?这个偏爱印度的创始人爆肝8年,终于等来抢英伟达泼天富贵的一天!AI芯片霸主英伟达在其总部建了一张5G专网GPT-5被5万张H100卡脖子!Altman急筹数十亿美元,欲取代英伟达建起AI芯片帝国“印度马斯克”要发印度第一款 AI 芯片,号称超越英伟达!CEO 要“狼性”,但把数十亿美元打水漂速递|曝孙正义抢英伟达的大客户并与供应商谈判!少赚 1500 亿美元后,寄托于 Arm 成为下一个英伟达,明年生产 AI 芯片英伟达最强AI芯片曝重大设计缺陷,中国特供版意外曝光!AMD提前发布新AI芯片,硬刚英伟达!Zen 5架构性能提高一倍AI芯片战争:英伟达是科技之巅,还是下一个思科?详解最强AI芯片架构:英伟达Blackwell GPU究竟牛在哪?现场对话技术高管
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。