北京时间 2025 年 6 月 28 日,路透社报道,OpenAI 已开始租用谷歌的 TPU 为其 ChatGPT 及其他 AI 产品提供算力支持。此举标志着作为英伟达 GPU 长期以来的最大采购商之一的 OpenAI,也开始在其 AI 大模型运算中实质性地大规模使用非英伟达 GPU 算力。
早在去年 6 月,OpenAI 就传出正在积极从谷歌 TPU 团队招募顶尖研发人才,自研 AI 专用芯片。而除OpenAI 外,苹果、Anthropic、Safe Superintelligence、Cohere 等公司也一直租用谷歌云的 TPU 用于 AI 大模型训练及推理。北美 AI 巨头公司们的战略转向凸显了 AI 行业更广泛的变革趋势:领先的大模型开发商都在积极探索英伟达 GPU 之外的替代方案,寻求基础设施多元化,拥抱以 TPU 为代表的 AI 专用芯片的新架构方向。
OpenAI 转向谷歌 TPU 的三重动因
OpenAI 是当下 AI 大模型浪潮的引爆者和代表者。长期以来,OpenAI 使用英伟达 GPU 进行 ChatGPT 模型训练(即通过大规模数据集和复杂的神经网络架构,训练出一个具备强大学习和推理能力的深度神经网络模型)和推理工作负载(即让已训练好的模型可以依据用户需求实时生成预测),OpenAI 既是英伟达 GPU 最早被用于 AI 计算场景的天使客户之一,也是英伟达GPU的长期最大采购商之一。
然而,随着大模型计算需求和复杂度的指数级增长,传统 GPU 架构芯片在用于大模型训练时的成本高、算力利用率低、能耗大的局限日益凸显。不断上涨的 GPU 计算成本和供应限制,促使 OpenAI 探索替代性 AI 芯片方案。通过接入谷歌云(Google Cloud)对外开放的TPU资源(早年仅供谷歌内部使用),OpenAI 得以利用专为张量计算优化的专用芯片,有望降低单次模型计算成本,并获得独特的性能表现。
OpenAI 的这一决策源于三方面因素的共同作用:
· 成本效益: TPU 专为深度学习的核心——大规模矩阵与张量运算而打造。相较于通用 GPU,其单位功耗吞吐量高,片上内存层级设计激进,通常能为训练和推理实现更低的总体成本。
· 供应链韧性: 算力供应商多元化可降低风险,避免因英伟达面临生产压力、分配延迟、其他行业需求激增而导致的瓶颈,确保其研究实验和大规模部署所需算力可以不间断。
· 软件生态集成:谷歌 TPU 成熟的全栈软件生态——包括与 XLA 编译器紧密耦合的 TensorFlow 框架、TPU 专用运行时、性能分析工具以及谷歌云上的托管服务,可以极大简化大型 AI 应用的模型开发、调优与部署流程,显著降低工程负担,缩短产品上线周期。
TPU 芯片:为 AI/ML 而生的架构
GPU 最初设计用于图形处理,尤其是实时渲染和图像处理,因此对其中体面结构的矩阵和向量运算做了专门优化,后来逐渐发展成为通用计算设备(GPGPU)。GPU 具有大量结构较为简单的并行处理单元,适合处理高度并行的任务,如图形渲染和科学计算,因此被广泛应用于计算机图形学、游戏开发、视频编码/解码、深度学习训练和推理。
TPU 是谷歌专为加速机器学习和深度学习任务而设计的专用芯片,特别是针对深度学习模型的训练和推理。TPU 针对张量运算进行了高度优化,单个的脉动阵列架构吞吐量和处理效率相较 GPU 有了更大提升,特别适合于处理矩阵乘法等常见于神经网络的操作,主要用于机器学习和深度学习模型的训练和推理,特别是使用 TensorFlow 框架的任务。
相较于传统 GPU 架构,TPU 设计具有多项优势:
· 紧密集成的内存与计算单元:每个 TPU 核心集成了大容量、高带宽的片上内存,并与矩阵乘法单元紧密耦合,显著降低了数据移动延迟和功耗。
· 高效推理:这种紧密集成使得 TPU 能在更低能耗下实现持续的高吞吐量推理,这对于日处理数百万请求的推理工作负载至关重要。
· 优化的集群互联:TPU 集群配备了精简高效的互联结构,专为分布式模型训练固有的集体通信模式优化,相较于传统的 GPU 加速集群,可带来更优的扩展性和资源利用效率。
AI 算力硬件竞争的关键转折
OpenAI 采用谷歌 TPU,打破了英伟达 GPU 在 AI 算力基础设施领域霸主地位不可撼动的观念。长期占据主导地位的英伟达,如今面临着来自作为主要终端用户的 AI 大模型提供商们寻求算力利用率、成本控制与供应灵活性替代方案的真实压力。谷歌云则赢得了 OpenAI 这一标杆客户,进一步印证了其观点:在特定 AI 工作负载上,TPU 性能可媲美甚至超越 GPU。
与此同时,OpenAI 的这一举措是 AI 硬件行业多元化浪潮的一部分,已有越来越多的世界顶尖科技公司在积极研发自己的 TPU 或类 TPU 架构的 AI 专用芯片,并已得到了众多领先 AI 大模型企业的广泛采用:
· 早在 2019 年,英特尔就收购了来自以色列的 AI 芯片制造商 Habana Labs,并在2024年 4 月推出了专攻深度学习神经网络推理的类 TPU 芯片 Gaudi 3;预计2025 年初,IBM Cloud 将率先部署英特尔 Gaudi 3 AI 加速器;
· 2023 年 7 月的 xAI 会议上,特斯拉以及 X(即 Twitter)的 CEO 马斯克公开宣布了特斯拉正在自研芯片且一定不会将其称为 GPU,暗示着特斯拉可能正在开发一种与传统 GPU 不同的芯片架构,以满足特斯拉的需求;
· 2023 年 11 月,微软在其全球技术大会 Ignite 上宣布推出专为 Azure 云服务和 AI 工作负载设计的 ASIC 芯片 Maia 100,预计 2026 年正式发布;
· 2023 年11月底,AWS 在其“AWS re:Invent 2023”大会发布了为生成式 AI 和机器学习训练设计的云端 AI 算力芯片 Trainium 2;2024 年底,AWS 与 Anthropic 官宣共同打造名为 Project Rainier 的 EC2 UltraCluster,将使用数十万片 Trainium2 芯片;
· 2024 年 7 月 30 日,苹果公司发布了研究论文表示,Apple使用了谷歌的2048 片 TPUv5p 芯片及 8192 片 TPUv4 芯片——而非英伟达的 GPU 芯片,来训练其人工智能系统“苹果智能”(Apple Intelligence)中的 AI 模型 Apple Foundation Model;
······
北美人工智能和半导体圈正在发生的AI算力硬件的转向,AI芯片市场也进入了更具竞争性的新阶段。
中昊芯英国产全自研 TPU AI芯片公司
中昊芯英作为国内唯一一家掌握 TPU 架构AI 专用芯片核心技术并实现全自研 TPU 芯片量产的公司,核心创始团队组建于 2018 年,其创始人及 CEO 杨龚轶凡曾作为谷歌 TPU 芯片核心研发者,深度参与过 TPU v2/3/4 的设计与研发工作。继 Apple 之后,OpenAI 对 TPU 的选择,再一次有力验证了当下中昊芯英所坚持走的TPU技术路线。
TPU 为 AI 大模型而生的天然优势架构,使其在面向 AI 计算场景时,在同等生产制程下相较于 GPU 可以拥有 3-5 倍的性能提升。以中昊芯英历时近五年全自研的国内首枚已量产 TPU AI 芯片“刹那®”为例,“刹那®”在处理大规模 AI 模型运算时与英伟达当代的先进芯片相比,计算性能可以超越其近 1.5 倍,在完成相同训练任务量时的能耗降低 30%,将价格、算力和能耗综合测算,“刹那®”的单位算力成本仅为其 42%。
OpenAI 拥抱谷歌TPU也许并不意味着英伟达 GPU 时代的终结,但它清晰地宣告了以 TPU 主导的AI专用算力基础设施的时代已然到来。成本压力、供应链波动以及模型规模的持续膨胀,必将使得效率因素比传统供应商优势更重要。在这种环境下,专用张量处理器——无论是来自谷歌、AWS 这样的科技巨头,还是中昊芯英、Cerebras、Groq 这样的新兴企业——将塑造大规模 AI 的下一篇章。