扎克伯格自爆:拥有35万张H100
👆如果您希望可以时常见面,欢迎标星🌟收藏哦~
来源:内容由半导体行业观察(ID:icbank)综合自CNBC,谢谢。
Meta表示,正在花费数十亿美元购买Nvidia 的流行的计算机芯片是人工智能研究和项目的核心。
该公司创始人扎克伯格在周四的 Instagram Reels帖子中表示,该公司的人工智能“未来路线图”要求其构建“大规模计算基础设施”。扎克伯格表示,到 2024 年底,基础设施将包括 35 万张Nvidia 的H100 显卡。
扎克伯格没有透露该公司已经购买了多少图形处理单元 (GPU),但 H100 直到 2022 年底才上市,而且供应有限。Raymond James 的分析师估计, Nvidia 在eBay上的 H100 售价为 25,000 至 30,000 美元它们的价格可能超过 40,000 美元。如果 Meta 按价格范围的低端支付,支出将接近 90 亿美元。
此外,扎克伯格表示,Meta 的计算基础设施将包含“如果包括其他 GPU,则相当于近 60 万个 H100 的计算量”。12 月,Meta、OpenAI 和Microsoft等科技公司表示他们将使用AMD的新型Instinct MI300X人工智能计算机芯片。
Meta 需要这些重型计算机芯片,因为它致力于通用人工智能 (AGI) 的研究,扎克伯格表示这是该公司的“长期愿景”。OpenAI 和谷歌的 DeepMind 部门也在研究 AGI,这是一种可与人类智能水平相媲美的未来人工智能形式。
Meta首席科学家Yann LeCun强调上个月在旧金山举行的一次媒体活动中强调了 GPU 的重要性。
“[如果]你认为 AGI 已经流行,你就必须购买更多的 GPU,”LeCun 当时说道。关于英伟达首席执行官黄仁勋,LeCun 表示:“这是一场人工智能战争,而他正在提供武器。”
Meta 在第三季度收益报告中表示,2024 年的总支出将在 940 亿美元至 990 亿美元之间,部分原因是计算扩张。
扎克伯格在与分析师的电话会议上表示:“就投资重点而言,人工智能将成为我们 2024 年最大的投资领域,无论是在工程还是计算机资源方面。”
扎克伯格周四表示,Meta 计划“负责任地开源”其尚未开发的“通用智能”,该公司也在Llama 系列大型语言模型中采用了这种方法。
扎克伯格表示,Meta 目前正在训练 Llama 3,并使其基础人工智能研究团队 (FAIR) 和 GenAI 研究团队更加紧密地合作。扎克伯格发帖后不久,LeCun 在X 上发帖称,“为了加快进展,FAIR 现在是人工智能产品部门 GenAI 的姐妹组织。”
除了购买芯片以外,Meta也正在自研芯片。
Meta公开首款自研AI芯片“MTIA”
ChatGPT横空出世所带来的爆炸式AI热潮,恐怕短期之内还不会熄灭,相较Google、微软等科技巨头,Meta似乎在这场AI大战中沉寂已久,因此近期频频出招,奋力追赶其他公司的脚步,于美东时间5月18日宣布重塑AI基础计划,内容谈及目前公司所开发AI项目的细节,包括最引发外界关注的首款定制AI芯片等等。
为了迎接执行长扎克伯格(Mark Zuckerberg)口中的「效率年」,Meta逐步将重心移向AI技术领域,在上周宣布的新计划中,重申「AI是公司基础设施的核心」,并推进多个AI项目,包括:
MTIA(Meta Training and Inference Accelerator)是Meta推出的首款定制AI芯片,将不同电路组合在同一块电路板上,目的为执行各式AI任务,包括加速AI模型的训练过程等,主要针对「推理/推论」工作(Inference,对以训练过的模型进行运作或预测的过程),并预计于2025年正式推出。虽然高层并未透露这款AI芯片将由哪家业者代工,不过有消息指出,MTIA将采用台积电的7纳米制程技术。
到2022年为止,Meta仍使用CPU(中央处理器)来运行AI工作负载,但相较CPU而言,GPU(图形处理器)更加适合处理AI项目,因为它能够同时执行大量任务,缩减处理庞大数据数据所需的时间,不过价格也比较高昂。在Meta于2022年开始花费数十亿美元订购Nvidia GPU后,发现为了和GPU相容,需要对多个数据中心进行重新改良设计,同时考量到成本因素、其他竞争对手遥遥领先的发展(Google早在2015年就开始使用内部开发的定制芯片,称为TPU),因此重新制定了内部计划,这正是MTIA将大规模问世的契机。
Meta表示,MTIA会提供比CPU更强大的运算能力,并且是为了公司内部工作而量身订制,能够大幅提升工作效率;另一方面,由于该芯片致力于处理跟演算系统相关的任务,可以帮助用户找出最佳贴文内容,并且更快速地呈现在浏览页面。
除了MTIA外,为了处理持续增长的影音工作需求,Meta还开发了另一个称为MSVP(Meta Scalable Video Processor)的芯片,主要用来传送影片给使用者,并且达到降低能源需求的目标。
「没有任何产品能够达成我们的需求,帮助我们每天高效率的处理和交付将近40亿个影片。」Meta基础建设副总裁Alexis Bijorlin表示。为了适应不同笔记型电脑、移动装置、电视等设备,上传至Facebook和Instagram的影片被转码成多种位元流(bitstreams),只要拥有MSVP的协助,就能提高处理速度,同时尽可能维持影片质量。
另一方面,这款芯片还将被应用于虚拟实境(VR)、扩增实境(AR)和生成式AI技术,显示出Meta尚未放弃对于元宇宙的野心。
官方表示,会依据可将数千个AI芯片连接在一起的高性能AI网路,及液体冷却系统(liquid-cooled AI hardware)重新设计数据中心,除了能够支援现有产品外,还会协助未来几代的AI硬体设备展开训练和推理,最主要就是为了优化AI技术,预计可将成本降低31%,速度比当前版本快两倍。
RSC于2022年一月首次亮相,号称世界上最快的AI超级电脑之一,目前已经完成第二阶段的建构,主要用来训练下一代大型的AI模型,以支援新的AR工具、内容理解系统(Content Understanding)和即时翻译技术等。
该款超级电脑一共配备了1.6万个Nvidia A100 GPU,并且逐渐开始参与各项开发计划,包括训练Meta在今年初公布的LLaMA(Large Language Model Meta AI)语言模型;官方表示,规模最大的LLaMA模型拥有650亿个参数(Parameter,是模型从历史训练数据中学习到的部分,能够定义该模型在特定方面的技能,例如:生成文本等),需要在2,048 个A100 GPU 上进行训练,一共花费21天。而有了RSC的协助,就能够提高构建新的AI模型的速度,推进Meta整体在AI领域上的发展。
Meta创建了一个类似GitHub Copilot的生成式AI工具,帮助使用者撰写程式码,希望能提高开发人员在软体开发周期的工作效率。在其训练的数个CodeCompose模型中,最大的一个拥有67亿个参数,但比起拥有120亿个参数的Copilot仍有所不足。
CodeCompose目前仍处于测试阶段,但已经根据Meta内部使用方式和程式数据库进行调整,能够将CodeCompose整合至该公司开发人员所使用的任何跟程式码相关的介面,不仅可以在用户键入程式码时提供注释或建议,也可以依照上下文生成新程式码。Meta表示,每周有数千名员工使用并接收来自CodeCompose的辅助。
根据Meta新公布的计划,不难看出他们在AI领域──特别是生成式AI技术方面的野心,不过这并不代表他们已经遗忘了元宇宙。今年2月,执行长扎克伯格宣布组建一个全新的「顶级」生成式AI团队,根据该公司研发人员的说法,Meta计划透过部署生成式AI工具,协助在虚拟实境中构建新项目。
专家预测,生成式AI产品的总潜在市场可能高达1500亿美元(约新台币4.6兆元),因此,只要Meta能够在生成式AI领域获得一小笔红利,对于消除该公司在VR、AR等元宇宙技术投资中所损失的数十亿美元,可能会有极大助益。根据Meta在2023年第一季度,主要负责元宇宙计划的部门Reality Labs净亏损达到40亿美元(约新台币1224亿元),Meta目前的当务之急,也许是尽快从其他领域获得收益,来填补元宇宙计划的资金空洞。
原文链接
https://www.cnbc.com/2024/01/18/mark-zuckerberg-indicates-meta-is-spending-billions-on-nvidia-ai-chips.html
END
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3649期内容,欢迎关注。
推荐阅读
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
微信扫码关注该文公众号作者