Bendi新闻
>
热归热,Groq离取代英伟达GPU有多远?

热归热,Groq离取代英伟达GPU有多远?

6月前

来源:节选自 2024 年 Week08 业内通讯 


2024 年 4 月 20 日,即 Meta 开源 Llama 3 的隔天,初创公司 Groq 宣布其 LPU 推理引擎已部署 Llama 3 的 8B 和 70B 版本,每秒可输出token输提升至800。


2024 年 2 月初创公司 Groq 展示了其 LPU 处理器对大语言模型任务提供的超高速推理的支持。彼时,Groq的 LPU 已能够实现每秒能输出 500 个 token,比英伟达的GPU快10倍,而成本仅为 GPU 的 10%。


4 月 20 日,即 Meta 开源 Llama 3 的隔天,初创公司 Groq 宣布其 LPU 推理引擎已部署 Llama 3 的 8B 和 70B 版本,每秒可输出token输提升至800,引起社区热议。


Groq 为何一夜爆火?


根据 Groq 官方在 2 月发布的 Demo 演示,基于其自研的 LPU 上运行的开源模型 Mixtral 能够在 1 秒内回复包含数百个单词的事实性的、引用的答案(其中四分之三的时间用来搜索)。

据悉,Groq 模型目前可在 Mixtral 8x7B SMoE 和 Llama2 7B 上运行,每100 万 token 价格为 0.27 美元。其在Mixtral 8x7B SMoE 可以达到 480 token / S,极限情况下,用 Llama2 7B 甚至能实现 750 token / S。


图:Groq 网站示意


有网友对比了 Groq、GPT-4 和 Genimi 在简单代码调试问题上的耗时,Groq 的速度比 Gemini 快 10 倍,比 GPT-4 快 18 倍。其中:

  • Groq 耗时 0.96 秒,答案可用

  • Gemini 耗时 10.47 秒,答案质量最高

  • ChatGPT-4 耗时 17.66 秒,答案可用


LPU是什么?


参考 Groq 公开的资料, LPU(语言处理单元)是一种专为计算密集型应用设计的端到端处理单元系统,尤其适用于需要处理序列数据的应用程序,如大型语言模型(LLM)。


LPU 采用了一种商用、可扩展的张量流处理器架构,它通过独特的设计实现了在单个芯片上并行处理大量张量操作的能力。与传统 GPU 所采用的 SIMD(单指令、多数据)模型不同,LPU 架构采用更精简的方法,减少了对复杂调度硬件的需求。


这种设计优化了每个时钟周期的利用效率,确保了一致的延迟和吞吐量。LPU 在执行深度学习模型,如 Transformer 架构时,能够实现高效的数据流处理。


此外,LPU 的能源效率表现优于 GPU,因为它减少了管理多线程的开销,并避免了核心利用率不足的问题,从而提供了更多的每瓦计算量。LPU 的架构还支持将多个 TSP(张量流处理器)连接在一起,避免了 GPU 集群中常见的瓶颈问题,展现出极高的可扩展性。


随着更多 LPU 的添加,可以实现性能的线性扩展,简化了大规模 AI 模型的硬件要求,并使开发人员能够更容易地扩展其应用程序。


Groq 真的有望取代英伟达 GPU 吗?


在Groq首次发布演示Demo后,诸多大佬和从业人员就LPU能否取代GPU的话题分享了自己的看法和分析结果。

原阿里副总裁、Lepton 创始人贾扬清对比了 Groq 硬件和英伟达 H100 在运行 LLaMA 70b 模型时的成本。他发现,在同等吞吐量下,Groq 的硬件成本和能耗成本分别高达 H100 的 40 倍和 10 倍。例如,为了运行 LLaMA 70b 模型,可能需要数百张 Groq 卡,而使用英伟达 H100 则成本大幅降低。


华为的左鹏飞提出了不同的视角,他强调在讨论成本时应区分售卖价和成本价,并指出 Groq 卡的成本价可能远低于市场售价。他还提到,Groq 卡未使用高成本的 HBM,而是使用了成本较低的 SRAM,这可能影响成本效益分析。


Smol AI 的创始人 Shawn Wang 从每 token 成本的角度出发,认为 Groq 在高批量处理的假设下,其成本与定价相匹配,并且可能比基于 H100 的成本更低,显示出 Groq 在成本效益上可能具有竞争力。


表:SemiAnalysis 的 Groq 和 H100 的性价比对比


Groq 卡的 per token 成本比之 H100 如何?各方大佬觉得Groq 有希望取代 GPU 吗?AI 芯片的市场风向要走向推理了吗?英伟达股价有被 Groq 影响吗?


有分析认为,此前大模型的训练和推理工作大多基于 GPU 设计,采用 CUDA 软件技术栈。而 Groq LPU 的爆火则将市场风向将 AI 芯片的主战场由训练走向推理......



点击文末👇「阅读原文」,查看完整解读


微信扫码关注该文公众号作者

来源:机器之心

相关新闻

突破摩尔定律极限!前谷歌量子计算团队首创「热力学计算机」,英伟达GPU「退役」?小城离世界有多远?答案在铁路、语言、毛线和西瓜里本周新闻信:拜登改变移民政策,是否太少又太晚?亨特·拜登受审,共和党为何不大做文章?一场致命禽流感离我们有多远?感染EB病毒离鼻咽癌有多远?您该怎么做?你离抑郁有多远?30题测出你的抑郁指数|免费测试你离抑郁有多远?免费测出你的抑郁指数上海楼市“热”起来了 ?有房企称“访客多了20%~30%”,购房者问得最多的问题是......这本热抢的欧盟护照究竟有多“香”?秘密曝光山东夫妻“禁欲”生活上热搜:36岁存款300万,提前退休的人生有多爽?今日arXiv最热大模型论文:上海AI lab发布MathBench,GPT-4o的数学能力有多强?知名艺人当众和女儿“热吻”长达20秒:没有边界感的父母,有多可怕?高端的不好卖了?茅台冰淇淋多家门店暂停营业,此前有门店疯狂打折!雪糕“重回5元”上热搜,网友:5元?2元!这得有多热,老司机都懂澳洲夏天到底有多热?!6所学校直接停电!开学第一天提前放学······《绝区零》上线的第一天,距离Z世代玩家“最强动作游戏”有多远?鼓吹大麻合法与为中国发声之间的距离有多远?体检查出结节,离癌症还有多远?想要“杀死”智能手机的AI Pin凉了:3个月退货量比销量还高!人手一个智能助手的未来离我们还有多远?新AI芯片B200推迟上市,对英伟达影响有多大?糊涂爸忘送孩子去上学,娃在车内热死,案情有反转?改变东北命运的出海口离我们还有多远?【社会】糊涂爸忘送孩子去上学,娃在车内热死,案情有反转?投资超两万亿的储能行业,离赚钱还有多远?我们离AGI还有多远?
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。