谷歌自研芯片的10年

5月前

👆如果您希望可以时常见面，欢迎标星🌟收藏哦~

来源：内容由半导体行业观察（ID：icbank）编译自谷歌，谢谢。

就在十多年前，一群 Google 员工发现，该公司对 AI 计算的需求将超过我们当时的基础设施。这一发现是在研究团队开始认真考虑在 Google 的全球范围内推出语音识别功能时发现的。

谷歌首席科学家 Jeff Dean 在接受采访时表示：“我们做了一些粗略的计算，看看每天处理数亿人与谷歌对话三分钟需要多少计算量。”“在今天看来，这似乎不算什么。但在当时，我们很快意识到，这基本上需要谷歌部署的所有计算能力。换句话说，我们需要将谷歌数据中心的计算机数量增加一倍来支持这些新功能。”

“我们认为肯定有更好的方法。”

该团队研究了市场上存在的不同方法，但最终意识到它们甚至无法满足我们产品所运行的那些基本机器学习工作负载的巨大需求——更不用说未来几年可能出现的需求了。

谷歌的领导意识到我们需要一种全新的芯片。因此，一个已经在探索定制硅片设计的团队招募了来自其他机器学习团队的谷歌员工，并为最终成为我们第一个张量处理单元（TPU）的芯片奠定了框架。

单一、明确的目的

中央处理器 (CPU) 被设计为计算机的万能通用“大脑”，而 GPU 当时是专门设计用于与 CPU 协同工作以加速图形、视频渲染和模拟中的复杂任务的专用芯片，而 TPU 则是专为 AI 而设计的。TPU 是一种专用集成电路 (ASIC)，这种芯片专为单一特定目的而设计：运行构建和运行 AI 模型所需的独特矩阵和基于矢量的数学运算。

我们的第一款此类芯片 TPU v1 于 2015 年在内部部署，并立即在 Google 不同部门引起热议。

“我们原本计划建造不到 10,000 个这样的系统，”我们的机器学习硬件系统首席工程师 Andy Swing 说道。“但最终我们建造了超过 100,000 个，以支持各种出色的产品，包括广告、搜索、语音项目、AlphaGo，甚至一些自动驾驶汽车产品。”

在此后的十年中，TPU 的性能和效率不断进步，并逐渐成为谷歌几乎所有产品的 AI 支柱。

图片来源于谷歌

Trillium 是我们的第六代 TPU，它提供了更强大的功能和更高的效率，可以帮助我们训练下一代尖端 AI 模型。

在今年的 I/O 大会上，我们发布了下一代 TPU - Trillium，它解锁了十年前我们的第一款 TPU v1 芯片推出时我们几乎无法想象的新功能。

TPU 还支撑着 Google DeepMind 的尖端基础模型，包括新推出的 Gemini 1.5 Flash、Imagen 3 和 Gemma 2，推动了 AI 的发展。Trillium TPU 的每芯片计算性能提高了 4.7 倍以上（与上一代 TPU v5e 相比），帮助我们满足更先进的 AI 系统的需求。

紧跟人工智能创新

我们的 TPU 的发展与我们在机器学习和 AI 方面的创新紧密相关。TPU v1 专注于推理 — 帮助模型更快地完成任务。但很快，仅仅拥有快速运行 AI 模型的基础设施就不够了；我们还需要能够更有效地训练新模型。

“2014 年末，在制造 TPU v1 时，我们意识到训练能力是生产模型的限制因素，”副总裁兼工程研究员 Norm Jouppi 表示。“人们认为训练芯片的制造太复杂了……所以我们决定制造一台训练超级计算机。”

这款训练超级计算机就是 TPU v2，它采用了我们原有 TPU 芯片的集中硬件方法，并将其扩展为更大的超级计算系统。“我们的一大重点不仅是打造一台训练机器的经济可行性，而且还要实现规模化。因此，我们打造了一台互联机器——我们的第一台 TPU pod——256 个 TPU 芯片通过带宽极高的定制互联连接在一起，真正为训练模型提供了强大的马力，”Swing 说道。

图片来源于谷歌

TPU v2（以及我们后续的硬件代）的一个关键目标是在专门设计用于训练的硅片设计与服务于当代模型之间取得平衡，同时仍保持足够的灵活性以应对快速变化。“我们不知道 2-8 年后模型会是什么样子，但我们知道它们将基于张量数学，”Jouppi 说。“因此，最好放弃最后 10-20% 的优化，以免加速器过度专业化并在一年后过时。”

从那时起，我们以越来越快的节奏发布了新的 TPU 芯片和系统，扩大了 TPU 舱的尺寸以容纳越来越多的芯片，并在性能、效率和处理能力方面取得了进一步的飞跃。TPU 所采用的技术变得更加复杂：例如，TPU v3 增加了液体冷却以帮助满足效率需求，而 TPU v4 引入了光路开关，使舱中的芯片能够更快、更可靠地通信。而这一切也带来了新的挑战。

“例如，在 TPU v2 或 TPU v3 中，我们不必太担心连接每个芯片的电缆的弯曲半径，”Swing 说。“但对于最新一代，如果你没有正确布线，它们就无法再工作，因为它们处理的数据传输速度太快了。”

分享爱

在早年寻求更好方法来开发和运行人工智能模型的并非只有谷歌一家。

“我在 2012 年与他人共同创办了一家机器学习初创公司，为了以低成本获得我们所需的计算能力，我的联合创始人会在网上购买二手游戏 GPU，然后在我们的咖啡桌上搭建服务器——我们运行 GPU，然后打开微波炉，这时电源就会断掉，”加入谷歌后创立 Cloud TPU 项目的 Zak Stone 说道。“因此，当我在 2016 年加入谷歌时，第一款 TPU 刚刚在 I/O 大会上亮相，我就知道我们必须找到一种方法，将 TPU 作为 Google Cloud 的基础设施。”

到 2018 年初，一个小团队推出了第一代 Cloud TPU，以帮助 Google Cloud 客户加速自己的训练和推理工作负载。如今，Anthropic、Midjourney、Salesforce 和其他知名 AI 团队都在大量使用 Cloud TPU。总体而言，超过 60% 获得资助的生成式 AI 初创公司和近 90% 的生成式 AI 独角兽都使用 Google Cloud 的 AI 基础设施，包括 Cloud TPU。

图片来源于谷歌

所有这些处理能力仍只是个开始。

“我们采用 TPU 和 pod 设置的地点最符合我们当时数据中心的能力，但现在我们正在改变我们的数据中心设计，以更好地满足需求。因此，今天准备的解决方案与明天的解决方案截然不同，”Swing 说。“忘记单个芯片或单个 TPU pod 吧——我们正在构建一个充满 TPU 的全球数据中心网络。未来是从硅到混凝土的全栈定制。”

参考链接：

https://cloud.google.com/transform/ai-specialized-chips-tpu-history-gen-ai?hl=en

点这里👆加关注，锁定更多原创内容

END

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。