AI芯片的潜在颠覆者:你不想再用GPU
👆如果您希望可以时常见面,欢迎标星🌟收藏哦~
来源:内容由半导体行业观察(ID:icbank)编译自venturebeat,谢谢。
人工智能芯片初创公司Groq的联合创始人乔纳森·罗斯 (Jonathan Ross)昨天宣布,其产品的开发者采用率有望创下历史新高。该公司在短短四个月内就吸引了28 万名开发者加入其平台,罗斯称这一壮举在硬件行业前所未有。
“据我们所知,就任何开发者的崛起、任何新硬件平台的采用而言,这几乎是最快的,”罗斯在接受 VentureBeat 的 Matt Marshall 采访时表示。他补充说,“我们实际上没想到会这么快就流行起来。”
Groq 对AI 推理芯片的创新方法推动了这一快速采用。与传统 GPU 不同,Groq 的架构消除了外部内存,Ross 声称这是“您实现推理的真正瓶颈”。
罗斯详细阐述了 Groq 解决方案的技术优势。“想象一下,如果你进行 Google 搜索,需要 10 秒钟才能得到答案,”他说。“从内心来说,这只会很痛苦。”这种比较强调了 Groq 旨在为 AI 推理带来的速度改进。
这家初创公司的爆炸式增长现在带来了一个不同寻常的挑战:管理巨大的需求。“我们的团队就像,我们有布线团队试图将机架布线起来,这太疯狂了,”罗斯承认,强调了满足客户需求的紧迫性。
尽管面临扩展挑战,Groq 仍充分利用了其发展势头。该公司最近与首批 50 名客户商谈了提高付费费率限制的问题。“我认为在 36 小时内,超过 35 家客户签署了一份承诺一年的采购订单,”Ross 透露,这远远超出了他们的预期。他补充道,“我们整天都在专注于如何尽快将更多产能投入生产。”
这家初创公司的野心不仅限于快速采用。罗斯提出了一个大胆的目标:“我们的目标是在明年年底前占领全球人工智能推理市场的一半份额。”为了实现这一目标,Groq 计划部署 170 万个人工智能处理器。“这相当于 Nvidia 去年部署的 3 倍,”罗斯声称,直接向行业领导者发起挑战。
行业分析师认为,开发人员的快速采用是市场兴趣和 AI 芯片领域潜在颠覆的有力指标,尽管这并不能保证长期成功。AI 行业密切关注 Groq 满足需求的步伐。
罗斯在谷歌工作期间的经历,曾负责 TPU(张量处理单元)的开发,这为 Groq 的方法提供了借鉴。“我们希望确保全世界都能使用人工智能,”他解释说,并将自己在谷歌的工作与 Groq 的使命进行了比较。
如果这家初创公司保持增长轨迹并兑现性能承诺,它可能会重塑 AI 推理硬件的格局,并挑战 Nvidia 等老牌公司。Ross 强调了他们的技术优势的重要性:“就像你不想使用 CPU 来运行这些模型一样,如果你有 LPU,你也不会想使用 GPU。”
随着 Groq 加速扩大生产规模,罗斯暗示了未来的挑战和机遇。“主要的区别在于,这一切的灵感来自于谷歌的经验,当我们进行搜索时,并不是只有一台服务器响应查询,”他说道,解释了 Groq 的分布式方法与传统方法的不同之处。
凭借前所未有的增长和雄心勃勃的计划,Groq 将自己定位为 AI 芯片市场的潜在颠覆者。随着该公司努力满足不断增长的需求并兑现承诺,科技行业密切关注这家初创公司是否能够真正挑战该领域的老牌巨头。
Groq 推出闪电般快速的 LLM 引擎
Groq现在允许您直接在其网站上使用领先的大型语言模型 (LLM) 进行闪电般快速的查询并执行其他任务。
该公司上周悄然推出了这项功能。结果比该公司之前演示的要快得多,也更智能。它不仅允许您键入查询,还允许您使用语音命令说出查询。
在我进行的测试中,Groq 的响应速度约为每秒 1256.54 个token,Groq 表示,这一速度几乎是即时的,而 Nvidia 等公司的 GPU 芯片无法做到这一点。这一速度比 Groq在 4 月份展示的每秒 800 个token的速度更高,这已经令人印象深刻。
默认情况下,Groq 的站点引擎使用 Meta 的开源 Llama3-8b-8192 LLM。它还允许您从更大的 Llama3-70b、一些 Gemma (Google) 和 Mistral 模型中进行选择,并且它将很快支持其他模型。
这次体验意义重大,因为它向开发人员和非开发人员展示了 LLM 聊天机器人的速度和灵活性。Groq 的首席执行官乔纳森·罗斯 (Jonathan Ross) 表示,一旦人们看到在 Groq 的快速引擎上使用 LLM 是多么容易,LLM 的使用率将进一步增加。例如,演示提供了在此速度下可以轻松完成的其他任务的概览,例如生成招聘信息或文章并即时更改它们。
Groq 之所以受到关注,是因为它承诺能够比竞争对手更快、更经济地完成 AI 任务,该公司表示,这是因为其语言处理单元 (LPU) 在执行此类任务时比 GPU 效率高得多,部分原因是 LPU 以线性方式运行。虽然 GPU 对于模型训练很重要,但在实际部署 AI 应用程序时(“推理”是指模型采取的操作),它们需要更高的效率和更少的延迟。
罗斯告诉 VentureBeat,到目前为止,Groq 已免费提供服务来支持 LLM 工作负载,并且得到了大量开发人员的支持,目前已超过 282,000 名开发人员。Groq 于 16 周前推出了这项服务。
Groq为开发人员提供了一个控制台来构建他们的应用程序,类似于其他推理提供商提供的服务。但值得注意的是,Groq 允许在 OpenAI 上构建应用程序的开发人员通过一些简单的步骤在几秒钟内将他们的应用程序切换到 Groq。
虽然您可以向 Groq 引擎输入查询,但现在您也可以按下麦克风图标后说出查询。Groq 使用 Whisper Large V3 模型(OpenAI 最新的开源自动语音识别和语音翻译模型)将您的语音转换为文本。然后将该文本插入为 LLM 的提示。
Groq 表示,其技术在最差的情况下仅使用 GPU 三分之一的功率,但其大多数工作负载仅使用十分之一的功率。在这个似乎 LLM 工作负载永远不会停止扩展、能源需求只会不断增长的世界里,Groq 的效率对 GPU 主导的计算领域提出了挑战。
事实上,Ross 声称,到明年,全球一半以上的推理计算将在他们的芯片上运行。
参考链接
https://venturebeat.com/ai/groq-claims-fastest-hardware-adoption-in-history-at-vb-transform/
END
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3824内容,欢迎关注。
推荐阅读
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
微信扫码关注该文公众号作者