谷歌“王牌” TPU Trillium 开放使用！性能暴涨，AI 模型训练效率再创新高

2024-12-13 10:19 · 来源： AIbase基地

今年早些时候，谷歌发布了第六代也是迄今为止性能最强大的 TPU——Trillium。今天，Trillium 正式面向 Google Cloud 客户开放使用。

谷歌使用 Trillium TPU 训练了最新的 Gemini2.0，这是谷歌迄今为止最强大的 AI 模型。现在，企业和初创公司都可以利用同样强大、高效和可持续的基础设施。

AI 超级计算机的核心:Trillium TPU

Trillium TPU 是 Google Cloud AI Hypercomputer 的关键组成部分。AI Hypercomputer 是一种突破性的超级计算机架构，它采用性能优化的硬件、开放软件、领先的 ML 框架和灵活的消费模型集成系统。随着 Trillium TPU 的正式推出，谷歌还对 AI Hypercomputer 的开放软件层进行了关键增强，包括优化 XLA 编译器和 JAX、PyTorch 和 TensorFlow 等流行框架，以在 AI 训练、调整和服务方面实现领先的性价比。

此外，使用大规模主机 DRAM（补充高带宽内存或 HBM）的主机卸载等功能可提供更高水平的效率。AI Hypercomputer 使您能够从每个 Jupiter 网络架构中前所未有的超过10万个 Trillium 芯片部署中提取最大价值，该架构具有13Petabits/秒的双向带宽，能够将单个分布式训练作业扩展到数十万个加速器。

AI21Labs 等客户已经在使用 Trillium，以更快地向其客户交付有意义的 AI 解决方案:

AI21Labs 首席技术官 Barak Lenz表示:“在 AI21，我们不断努力提高 Mamba 和 Jamba 语言模型的性能和效率。作为 TPU v4的长期用户，我们对 Google Cloud 的 Trillium 的功能印象深刻。在规模、速度和成本效率方面的进步非常显著。我们相信 Trillium 将在加速我们下一代复杂语言模型的开发方面发挥至关重要的作用，使我们能够为客户提供更强大和更易于访问的 AI 解决方案。”

Trillium 性能大幅提升，多项指标刷新纪录

与上一代相比，Trillium 在以下方面进行了显著改进:

训练性能提高4倍以上

推理吞吐量提高3倍

能源效率提高67%

每个芯片的峰值计算性能提高4.7倍

高带宽内存（HBM）容量翻倍

芯片间互连（ICI）带宽翻倍

单个 Jupiter 网络架构中包含10万个 Trillium 芯片

每美元训练性能提高2.5倍，每美元推理性能提高1.4倍

这些增强功能使 Trillium 能够在各种 AI 工作负载中表现出色，包括:

扩展 AI 训练工作负载

训练 LLM，包括密集型模型和混合专家（MoE）模型

推理性能和集合调度

嵌入密集型模型

提供训练和推理性价比

Trillium 如何在不同工作负载中表现出色?

扩展 AI 训练工作负载

训练像 Gemini2.0这样的大型模型需要大量的数据和计算。Trillium 的近乎线性的扩展能力使这些模型可以通过在多个 Trillium 主机之间有效且高效地分配工作负载来显著加快训练速度，这些主机通过高速芯片间互连连接在256芯片 pod 和我们最先进的 Jupiter 数据中心网络中。这通过 TPU 多片、用于大规模训练的全栈技术实现，并通过 Titanium 进一步优化，Titanium 是一种动态数据中心级卸载系统，范围从主机适配器到网络架构。

Trillium 在由3072个芯片组成的12个 pod 的部署中实现了99% 的扩展效率，并在具有6144个芯片的24个 pod 中展示了94% 的扩展效率，以预训练 gpt3-175b，即使在跨数据中心网络运行时也是如此。

训练 LLM，包括密集型模型和混合专家（MoE）模型

像 Gemini 这样的 LLM 本身就非常强大和复杂，具有数十亿个参数。训练这种密集型 LLM 需要巨大的计算能力以及协同设计的软件优化。Trillium 在训练 Llama-2-70b 和 gpt3-175b 等密集型 LLM 时，速度比上一代 Cloud TPU v5e 快4倍。

除了密集型 LLM 之外，使用混合专家（MoE）架构训练 LLM 是一种越来越流行的方法，它结合了多个“专家”神经网络，每个神经网络都专门负责 AI 任务的不同方面。与训练单个整体模型相比，在训练期间管理和协调这些专家增加了复杂性。Trillium 在训练 MoE 模型时的速度比上一代 Cloud TPU v5e 快3.8倍。

此外，与 Cloud TPU v5e 相比，Trillium TPU 提供了3倍的主机动态随机存取存储器（DRAM）。这会将一些计算卸载到主机，有助于最大限度地提高大规模性能和良好吞吐量。Trillium 的主机卸载功能在训练 Llama-3.1-405B 模型时，在模型 FLOP 利用率 (MFU) 方面提供了超过50% 的性能提升。

推理性能和集合调度

在推理时，多步骤推理的重要性日益提高，这需要加速器能够有效地处理增加的计算需求。Trillium 为推理工作负载提供了重大进步，可以更快、更高效地部署 AI 模型。事实上，Trillium 为图像扩散和密集型 LLM 提供了我们最佳的 TPU 推理性能。我们的测试表明，与 Cloud TPU v5e 相比，Stable Diffusion XL 的相对推理吞吐量（每秒图像数）高出3倍以上，而 Llama2-70B 的相对推理吞吐量(每秒标记数)高出近2倍。

Trillium 是我们用于离线和服务器推理用例的性能最高的 TPU。下图显示，与 Cloud TPU v5e 相比，Stable Diffusion XL 的离线推理相对吞吐量（每秒图像数）高出3.1倍，服务器推理相对吞吐量高出2.9倍。

除了更好的性能之外，Trillium 还引入了新的集合调度功能。此功能允许 Google 的调度系统做出智能的作业调度决策，以提高集合中存在多个副本时推理工作负载的整体可用性和效率。它提供了一种管理运行单主机或多主机推理工作负载的多个 TPU 片段的方法，包括通过 Google Kubernetes Engine （GKE）。将这些片段分组到一个集合中可以轻松地调整副本的数量以匹配需求。

嵌入密集型模型

通过添加第三代 SparseCore，Trillium 使嵌入密集型模型的性能提高了2倍，DLRM DCNv2的性能提高了5倍。

SparseCore 是数据流处理器，它为嵌入密集型工作负载提供了更具适应性的架构基础。Trillium 的第三代 SparseCore 擅长加速动态和数据相关的操作，例如分散收集、稀疏段求和和分区。

提供训练和推理性价比

除了训练世界上一些最大规模 AI 工作负载所需的绝对性能和规模外，Trillium 还旨在优化每美元的性能。迄今为止，Trillium 在训练 Llama2-70b 和 Llama3.1-405b 等密集型 LLM 时，每美元的性能比 Cloud TPU v5e 高出2.1倍，比 Cloud TPU v5p 高出2.5倍。

Trillium 擅长以经济高效的方式并行处理大型模型。它的设计目的是使研究人员和开发人员能够以比以前低得多的成本提供强大而高效的图像模型。在 Trillium 上生成一千张图像的成本，对于离线推理，比 Cloud TPU v5e 低27%，对于 SDXL 上的服务器推理，则比 Cloud TPU v5e 低22%。

将 AI 创新提升到新的水平

Trillium 代表了 Google Cloud AI 基础设施的重大飞跃，为各种 AI 工作负载提供了令人难以置信的性能、可扩展性和效率。借助其使用世界一流的协同设计软件扩展到数十万个芯片的能力，Trillium 使您能够实现更快的突破并交付卓越的 AI 解决方案。此外，Trillium 卓越的性价比使其成为希望最大限度地提高 AI 投资价值的组织的经济高效的选择。随着 AI 格局的不断发展，Trillium 证明了 Google Cloud 致力于提供尖端基础设施，以帮助企业释放 AI 的全部潜力。

官方介绍：https://cloud.google.com/blog/products/compute/trillium-tpu-is-ga

相关推荐

网易二季度在线游戏净收入达228亿元经典IP《梦幻西游》再创新高

今日，网易发布2025年第二季度财报。报告显示，2025年第二季度，网易营收279亿元，同比增长9.4%，市场预估284亿元。归属于该公司股东净利润为86亿元，经调整归属于公司股东净利润为95亿元。二季度，网易在线游戏服务净收入228亿元，预估233.7亿元，较2024年同期增长13.7%。其中，经典 IP《梦幻西游》电脑版同时在线人数及手游季度收入再创新高，《第五人格》延续火爆表

网易财报游戏收入梦幻西游
自动化浏览器控制领域工具深度对比：NXNOS、TARS与Fellou性能与成本

本文对比三款自动化浏览器控制工具：NXNOS、Agent+TARS和Fellou。从企业背景、技术架构、稳定性实测和硬件成本四个维度分析，NXNOS在复杂场景容错和长期运行稳定性上表现突出，硬件门槛低；Agent+TARS侧重跨设备自动化但资源需求高；Fellou适合轻量任务但复杂场景适配弱。建议用户根据场景复杂度、并发需求和预算选择，无绝对优劣，只有适用性差异。

数字经济自动化浏览器企业效率
豆包1.5 Vision Lite 对比 GPT-5-min，谁更适合你？实测AI模型选型利器｜AIBase

文章探讨了企业选择AI大模型时面临的实际决策难题，指出单纯比较学术参数无法满足业务需求。AIBase模型对比平台（https://model.aibase.cn/compare）通过三大核心价值解决痛点：1）聚焦业务场景而非参数堆砌，突出价格、语言支持、上下文长度等实用维度；2）透明化成本计算，标注长文本溢价规则和多模态附加费；3）一键生成对比报告。平台特别强调中文场景的特殊性（如豆包1.5在中文处理成本的优势），并揭示厂商宣传中容易忽略的隐藏成本（如GPT-5-min超5000字符的30%溢价）。典型电商客服案例显示，需综合中文理解、多模态、性价比等维度决策，最终选择取决于具体业务需求而非绝对性能排名。

智能客服系统中文场景预算有限
卡萨帝AI之眼冰箱将上市，夯实高端TOP1地位

卡萨帝9月将推出搭载“AI之眼”的鉴赏家冰箱，通过图像识别技术自动识别食材并联动氮氧智控系统精准保鲜。该产品能根据用户健康需求生成专属膳食方案，支持高血压、控糖等个性化场景。采用平嵌设计实现无缝融入橱柜，重新定义高端厨居美学。作为行业首款可定制AI健康营养冰箱，未上市已引发期待，将巩固卡萨帝在高端市场的领先地位。

健康管理 AI之眼长效保鲜
真我GT8 Pro预热：Ultra级的产品力

今天下午，真我举行了七周年直播活动，realme副总裁徐起提前预热真我GT8 Pro。徐起表示，真我GT8 Pro将是一款大改款旗舰，从外观设计、核心技术、用户体验等维度全方位革新，拥有Ultra级的产品力，而且真我还将带来颠覆想象的影像效果，是真我史上最强旗舰。

真我GT8 Pro 2K直屏
荐AI日报：字节视频模型Waver 1.0发布；百度AI搜索APP“梯子AI”发布；谷歌推全新Gemini 2.5 Flash图像编辑模型

本文汇总了AI领域最新动态：谷歌推出Gemini 2.5 Flash图像编辑模型，字节发布Waver 1.0视频生成工具；百度“梯子AI”提供无广告搜索；文心快码新增终端编码功能；腾讯游戏VISVISE工具集提升动画制作效率；自动驾驶配送机器人RM5进军外卖行业；DeepSeek V3.1出现字符Bug已修复；谷歌翻译升级实时同传和AI陪练；全球首现AI勒索软件PromptLock威胁网络安全；Anthropic推出Chrome浏览器AI助手Claude。

AI Gemini 2.5
OpenAI的开源模型现已在IBM watsonx.ai上提供

OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B，允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台，采用专家混合架构，支持本地或云端部署，不受商业用途限制。模型具备高透明度，输出完整推理链，在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态，IBM强调其开放战略，为企业提供灵活、安全的AI开发选择。

OpenAI模型 IBM watsonx.ai
可赶上这波了！iOS用户“一键补课”了Mistplay的新功能

在2023 ChinaJoy展会上，Mistplay凭借其独特的"玩赚"模式成为BTOB展区热门平台。该平台通过游戏时长激励玩家，同时为开发者提供高质量用户，已覆盖全球九大应用市场，累计安装超3500万次。Mistplay近期推出iOS版本，新增锦标赛、益智问答等功能，并创新推出LoyaltyPlay功能，为非游戏应用搭建激励桥梁。其核心AI引擎"Helios"能精准匹配用户与游戏，提升用户留存率和LTV。中国区负责人彭超楠在展会上分享了"忠诚度营销"理念，为游戏出海提供新思路。双平台布局使Mistplay优势更加突出，成为开发者提升用户留存的重要合作伙伴。

ChinaJoy Mistplay 游戏出海
红魔11 Ultra曝光：首款支持主动散热的骁龙8 Elite 2旗舰

红魔11 Ultra现身Geekbench跑分网站，首发搭载骁龙8 Elite 2旗舰平台，单核3309分、多核10742分。该芯片采用8核设计，集成Adreno 840 GPU，博主透露量产版频率将提升至4.6GHz左右。新机延续主动散热风扇设计，支持IP68防尘防水，是行业内唯一支持防水的主动散热手机，通过高效散热保证处理器性能稳定释放。新品预计今年第四季度发布。

红魔11 Ultra 骁龙8
再次定义行业创新范式跃然创新推出全球首款端到端 AI 玩具 CocoMate

8月26日，跃然创新推出全球首款搭载端到端语音模型的AI玩具CocoMate系列。该产品采用可拆卸设计，配备3000mAh电池，支持4G和WiFi网络。依托端到端技术，具备丰富交互表现和拟人化情感能力，支持多重唤醒、主题游戏及聊天室等功能。新品将于8月27日开售，首发包含奥特曼及原创IP“泡泡”等角色，后续还将上线财神爷、塔罗猫等系列，目标人群从儿童延伸至成年人。

文章搜索核心标签内容检索

今日大家都在搜的词：

热文

3 天
7天

谷歌“王牌” TPU Trillium 开放使用！性能暴涨，AI 模型训练效率再创新高

网易二季度在线游戏净收入达228亿元经典IP《梦幻西游》再创新高

自动化浏览器控制领域工具深度对比：NXNOS、TARS与Fellou性能与成本

豆包1.5 Vision Lite 对比 GPT-5-min，谁更适合你？实测AI模型选型利器｜AIBase

卡萨帝AI之眼冰箱将上市，夯实高端TOP1地位

真我GT8 Pro预热：Ultra级的产品力

荐AI日报：字节视频模型Waver 1.0发布；百度AI搜索APP“梯子AI”发布；谷歌推全新Gemini 2.5 Flash图像编辑模型

OpenAI的开源模型现已在IBM watsonx.ai上提供

可赶上这波了！iOS用户“一键补课”了Mistplay的新功能

红魔11 Ultra曝光：首款支持主动散热的骁龙8 Elite 2旗舰

再次定义行业创新范式跃然创新推出全球首款端到端 AI 玩具 CocoMate

今日大家都在搜的词：

热文

2025民营企业500强揭晓：京东第一

SpaceX第10次试飞成功马斯克：星舰这次没有空中爆炸

小米澎湃OS3发布会官宣首批Beta版招募机型公布

AI日报：字节视频模型Waver 1.0发布；百度AI搜索APP“梯子AI”

iPhone17标准版或上高刷苹果2025秋季发布会定档9月10日

realme真我15000mAh电池容量手机亮相

华为三折叠屏手机Mate XTs非凡大师上架开启预约

苹果客服回应4款iPhone将下架：尚未收到任何通知

小米澎湃OS 3今日发布首批29日启动Beta测试推送

AI日报：字节OmniHuman-1.5发布；PixVerse V5模型上线；腾讯

2025民营企业500强揭晓：京东第一

SpaceX第10次试飞成功马斯克：星舰这次没有空中爆炸

AI日报：钉钉十周年发布8.0版本；微信悄悄上线AI播客；阿里开源

iPhone17Pro爆料汇总：橙色版本成最大亮点或迎12项升级

20周年版iPhone或成苹果首款曲面机：一体环绕玻璃+曲面机身

小米澎湃OS3发布会官宣首批Beta版招募机型公布

AI日报：字节视频模型Waver 1.0发布；百度AI搜索APP“梯子AI”

罗永浩播客节目爆火：24小时播放量超2000万晒成绩单求合作

AI日报：Wan 2.2-S2V模型即将发布；字节跳动内测3D Model Ge

24. 98 万起标配华为ADS 4！鸿蒙智行智界 R7 车型上市

站长商机