1000亿美元!微软和OpenAI又有大动作:欲联手打造AI超算
腾讯科技讯 3月30日消息,据国外媒体报道,援引三名知情人士透露,微软与OpenAI的高管们始终在探讨一个前所未有的数据中心项目,该项目包括构建一台拥有数百万个专用服务器芯片的人工智能超级计算机,为OpenAI的前沿技术提供强大的动力。据称,与OpenAI首席执行官山姆·奥特曼(Sam Altman)深入交流过及接触到微软初步成本估算的内部人士均表示,该项目的投资规模可能高达惊人的1000亿美元。
微软可能为这一项目提供资金支持,而该项目的成本将是现有最大数据中心的百倍之多,这预示着未来数年,为人工智能打造强大的计算能力将需要巨大的经济投入。高管们构想中的这台超级计算机名为“星际之门(Stargate)”,它将坐落于美国,并有望成为微软与OpenAI未来六年内计划建设的众多设施中规模最大的一座。
尽管该项目尚未获得两家公司的最终批准,计划也可能随着时间的推移而有所调整,但它无疑为我们揭示了未来十年科技行业最重要的合作趋势,以及微软和OpenAI两家公司在技术前瞻方面的卓越洞察力。
截至目前,微软已向OpenAI承诺投资130亿美元,后者则借助微软的数据中心为ChatGPT及其背后的会话人工智能模型提供强大的支持。作为回报,微软获得了OpenAI技术的使用权,并有权将这项技术转售给包括摩根士丹利在内的自家云计算客户。此外,微软还将OpenAI的软件深度整合至Office、Teams和必应的AI Copilot新功能中,进一步推动了人工智能技术在各个领域的广泛应用。
另据一位了解内情的人士透露,微软是否愿意继续推进“星际之门”这一宏伟计划,在很大程度上取决于OpenAI能否显著提升其人工智能技术的能力。值得注意的是,OpenAI去年未能如期向微软交付一款新模型,这一事实无疑凸显了人工智能领域发展的不确定性和挑战性。尽管如此,奥特曼曾公开指出,目前阻碍人工智能进一步发展的主要瓶颈在于缺乏足够的服务器资源来支持研发工作。
这些知情人士进一步透露,如果“星际之门”项目能够顺利推进,其所提供的计算能力将远超微软目前从凤凰城等地数据中心向OpenAI输送的能力,实现指数级的提升。其中两名知情人士说,这台尚在规划中的超级计算机预计将需要至少数十亿瓦的电力支持,这一数字相当于当前运行多个大型数据中心所需的电力总和。此外,虽然该项目的大部分成本将用于购买芯片,但如何确保获得稳定且充足的能源供应来支持其运行,同样是一个不容忽视的挑战。
对于这样一个项目,数据中心运营商Digital Realty的首席技术官克里斯·夏普(Chris Sharp)表示,对于人工智能领域而言,此类项目是“绝对必要的”,因为人工智能正逐渐承担起人类所执行的大部分计算任务。尽管Digital Realty目前尚未参与“星际之门”项目,但夏普认为,以现今的标准来看,这个项目的规模或许令人难以想象。然而,他预测,当这样一台超级计算机最终建成时,这些看似惊人的数字将会变得不再那么令人震惊。
参与项目讨论的人士说,高管们已经讨论过最早在2028年发布“星际之门”,并将时间延长到2030年,到最后可能需要多达5千兆瓦的电力。
五个发展阶段
奥特曼与微软的员工共同将这个超级计算机项目划分了五个发展阶段,其中第五阶段就是“星际之门”。这一名称灵感来源于一部同名科幻电影,该电影中科学家们成功研发出一种能够实现星系间旅行的装置。尽管“星际之门”这一代号起源于OpenAI的创意,但它并非微软内部所使用的官方项目名称。
在实现“星际之门”的过程中,前几个阶段的投入相对较小。据两位知情人士透露,微软目前正积极为OpenAI研发一款规模较小的第四阶段超级计算机,并计划于2026年左右正式推出。高管们即将把威斯康辛州的普莱森特山(Mt. Pleasant)作为这台超级计算机的部署地点。最近,威斯康星州经济发展公司宣布,微软在该州投资的10亿美元数据中心扩建项目已破土动工。
有知情人士称,这台超级计算机与数据中心的最终建设成本可能高达100亿美元,这远远超过了现有数据中心的投入。此外,另一位参与讨论的人士透露,微软还探讨了在该项目中采用英伟达生产的人工智能芯片的可能性。目前,微软与OpenAI正处于这项宏伟计划的第三阶段。可以预见的是,接下来两个阶段的大部分开销将主要用于采购人工智能芯片。
总体来看,整体计划可能涉及超过1150亿美元的投资,这一数字是微软去年在服务器、办公大楼和其他设备上的资本总支出的三倍还多。考虑到微软在2023年下半年所披露的资本支出速度,该公司今年的预计支出将约为500亿美元。微软首席财务官艾米·胡德(Amy Hood)在今年1月表示,由于“云和人工智能基础设施”投资的不断增加,这类支出在未来几个季度将会“大幅”上升。
微软发言人弗兰克·肖(Frank Shaw)在回应关于超级计算计划的询问时,虽然没有直接评论,但他在一份声明中强调:“我们一直在规划下一代基础设施创新,以继续推动人工智能能力的前沿。”而OpenAI发言人没有对本文置评。
据知情人士透露,奥特曼曾私下表示,谷歌作为OpenAI的主要竞争对手之一,在短期内将拥有比OpenAI更多的计算能力。他曾在公开场合抱怨称,目前他手上的人工智能服务器芯片资源并不充足。
这也正是他一直积极倡导成立一家新的服务器芯片公司的原因之一。这家新公司旨在开发一种能够与英伟达当前为OpenAI软件提供动力的图形处理单元(GPU)相抗衡的新型芯片。
由于对英伟达GPU服务器的需求激增,微软和OpenAI等客户的成本也相应上升。除了控制成本这一直接原因外,微软支持奥特曼的替代芯片计划还出于其他潜在的考虑。例如,英伟达在GPU市场的主导地位使其在选择哪些客户可以拥有更多芯片方面拥有绝对的话语权,这可能对微软构成一定的竞争压力。此外,英伟达还通过向云计算服务提供商转售其云服务器来进一步扩大其市场份额,这同样可能影响到微软的业务发展。
无论微软是否参与,奥特曼的计划都注定要在电力和数据中心建设方面投入巨额资金。据参与讨论的人士透露,“星际之门”的设计初衷便是让微软和OpenAI拥有更多选择权,既可以采用英伟达以外的GPU制造商(如AMD)的产品,也能考虑使用微软最近推出的人工智能服务器芯片。然而,目前尚不清楚奥特曼是否对其计划在未来几年内开发的理论上的GPU抱有充足的信心,以确保它们能够满足“星际之门”的需求。
“星际之门”超级计算机的总成本将受到软件和硬件改进的深刻影响,这些改进有望使数据中心在运营过程中变得更加高效。据一位知情人士透露,微软和OpenAI已经探讨了利用核能等替代目前现有能源的可能性,以应对未来可能出现的能源挑战。奥特曼本人也曾表示,开发超级智能可能需要在能源领域取得重大突破。
更新设计
两位知情人士说,为了让“星际之门”成为现实,微软还必须克服几个技术挑战。
例如,目前的设计方案要求在单个机架内集成远超微软常规配置数量的GPU,以此大幅提升芯片效率与性能。然而,随着GPU密度的增加,如何有效防止芯片过热成为微软必须解决的棘手问题。
此外,微软与OpenAI之间还就如何连接数百万个GPU产生了分歧。网络电缆在快速处理服务器芯片间海量数据中扮演着至关重要的角色。据两名参与讨论的人士透露,OpenAI已明确表示,在“星际之门”超级计算机的建设中,他们不希望使用英伟达专有的InfiniBand电缆,尽管微软目前在其现有的超级计算机中采用了这款产品。相反,OpenAI更倾向于使用更为通用的以太网电缆。放弃InfiniBand有助于OpenAI和微软减少对英伟达的依赖。
人工智能计算的高昂成本和复杂性远超传统计算,这也是众多公司严格保密其人工智能数据中心细节的原因所在,包括GPU的连接方式和冷却技术等。英伟达首席执行官黄仁勋曾表示,未来四到五年内,为应对即将爆发的人工智能计算需求,企业和国家将需要投入1万亿美元的资金建设新数据中心。
自去年夏天起,微软与OpenAI的高管团队就一直在紧密商讨这个数据中心项目。除了首席执行官(Satya Nadella)和首席技术官凯文·斯科特(Kevin Scott)之外,微软方面还有多位管理人员深入参与了超级计算机的谈判工作。
其中,普拉迪普·辛杜(Pradeep Sindhu)负责微软数据中心人工智能服务器芯片的整合策略,而布莱恩·哈里(Brian Harry)则协助开发Azure云服务器部门的人工智能硬件。
OpenAI总裁格雷格·布罗克曼(Greg Brockman,左)和微软首席技术官凯文·斯科特(Kevin Scott)
尽管双方已经取得了一定进展,但仍有几个关键细节尚待敲定,且可能需要较长时间才能达成共识。目前,关于“星际之门”的具体部署位置,以及它是集中在一个数据中心还是分散在多个数据中心内建设,都尚未明确。不过,根据人工智能领域的专业人士表示,当GPU集群位于同一数据中心时,其工作效率往往会更高。
OpenAI的需求已经推动了微软在数据中心领域的边界扩展。在2019年对这家初创公司进行初步投资后,微软便着手打造了第一台包含数千个英伟达GPU的超级计算机,以满足OpenAI日益增长的计算需求。几年来,微软在该系统上的投入已经累计达到12亿美元。据一位了解微软计算需求的人士透露,微软还计划在未来两年内,向OpenAI提供配备数十万个GPU的服务器,以进一步支持其人工智能领域的研究与开发工作。
下一个行业标杆:GPT-5
微软与OpenAI联手打造的这一世界顶级数据中心设计的宏伟蓝图,其核心成败与否,几乎完全依赖于OpenAI能否在超级智能领域取得颠覆性的突破,从而证明微软在这些创新项目上的巨额投资物有所值。超级智能的潜力巨大,或许能助我们攻克癌症、核聚变、全球变暖甚至殖民火星等人类面临的重大难题。
然而,这样的美好愿景或许仍是一个遥远的梦想。尽管ChatGPT等会话式人工智能以及AI生成视频已经获得了消费者和业内人士的广泛认可,但将这些最新突破转化为能够产生可观收入的技术,可能比业界预期的时间要长得多。包括亚马逊和谷歌在内的行业巨头,已经悄然降低了销售预期,部分原因就在于人工智能的高昂成本,以及在企业内部大规模推广或为数百万用户的应用程序添加新功能所需的巨大工作量。
上个月,奥特曼在英特尔的一次活动中明确指出,随着研究人员不断向人工智能模型投入更多计算能力,它们将“可预见地变得更好”。OpenAI已经就这一主题发表了深入研究,并将其称为对话式人工智能的“缩放定律”。
帮助企业使用人工智能技术的Databricks公司首席执行官阿里·戈德西(Ali Ghodsi)表示,OpenAI通过不断增加计算能力来扩大现有人工智能的规模,可能会让客户经历一段“幻灭期”,因为随着对技术深入了解,他们会意识到其局限性。戈德西强调,真正的焦点应该放在如何让这项技术对人类和企业产生实际价值上,而这需要时间的积累与沉淀。他坚信人工智能的未来将是惊人的,但实现这一目标并非一蹴而就。
对于OpenAI来说,证明其下一个主要的大语言模型相较于目前最先进的GPT-4有显著优势至关重要。自从一年前GPT-4的发布与谷歌类似模型的推出形成竞争态势以来,OpenAI一直面临着巨大的压力。据知情人士透露,OpenAI的目标是在明年年初发布下一个主要的大语言模型,而在此之前可能会推出更多渐进式的改进。
随着更多服务器的投入使用,OpenAI的部分高管对其能力充满信心。他们相信,公司可以利用现有的人工智能技术和最近的突破,如Q*(一种能够推理处理未经过训练的数学问题的模型),来创建正确的合成数据,以在人工生成的数据用尽后继续训练出更好的模型。这些模型不仅能够识别现有模型(如GPT-4)中的缺陷,还能提出针对性的技术改进建议。简而言之,OpenAI正致力于开发能够自我改进的人工智能。
微信扫码关注该文公众号作者