AWS发布Trainium3芯片性能飙升,Trainium4兼容NVIDIA技术重塑云端AI竞争格局

🤖 由 文心大模型 生成的文章摘要

亚马逊云计算部门(AWS)在拉斯维加斯举办的年度技术盛会re:Invent2025上,正式推出新一代自研AI训练芯片Trainium3及配套的Trn3UltraServers服务器系统,同时重磅预告下一代产品Trainium4的研发计划。这场发布不仅以3纳米工艺带来性能与能效的双重突破,更通过Trainium4对NVIDIA技术的兼容布局,彻底搅动了全球云端AI基础设施市场的竞争格局。

作为AWS首款采用3纳米制程的AI芯片,Trainium3基于台积电N3P工艺打造,这一针对高性能计算优化的工艺平台较前代实现5%更高频率或5-10%更低功耗,为超大规模AI计算提供了坚实基础。单芯片性能堪称跨越式提升:提供2.52petaflops(PFLOPs)的FP8算力,内存容量较Trainium2增加1.5倍至144GBHBM3e,内存带宽提升1.7倍达4.9TB/s,可灵活适配密集型与专家并行型工作负载,尤其针对智能体系统、推理任务和视频生成等下一代AI应用优化。

依托创新的硬件架构,Trainium3在系统级性能上实现更大突破。单台完整配置的Trn3UltraServer可集成144颗Trainium3芯片,总算力达到362FP8PFLOPs,配备20.7TBHBM3e内存和706TB/s聚合内存带宽,通过NeuronSwitch-V1全连接交换架构,芯片间互联带宽较上一代翻倍。实测数据显示,Trn3UltraServers的计算性能较Trainium2提升4.4倍,性能功耗比提升4倍,能源效率提高40%;在AmazonBedrock平台上,其性能较前代提升3倍,每兆瓦输出token数量增加超5倍,且保持相近的用户延迟水平。使用OpenAI开源模型GPT-OSS测试时,单芯片吞吐量提升3倍,推理响应速度加快4倍,能将复杂模型的训练周期从数月压缩至数周。

性能跃升直接转化为成本优势。Anthropic、Ricoh等早期用户反馈,采用Trainium3方案后训练和推理成本降低最高达50%,其中Decart公司借助该平台实现实时生成视频推理速度提升4倍,成本仅为传统GPU方案的一半。AWS副总裁DaveBrown强调:“我们对Trainium实现正确的价格性能比的能力感到非常满意”,这种性价比优势正吸引大量寻求成本控制的企业客户转向AWS生态。目前,Trainium3已在多个数据中心部署,并于发布当日向客户开放使用,计划2026年初快速扩大部署规模。

更具行业震动性的是AWS对Trainium4的前瞻性布局。这款下一代芯片不仅承诺性能的持续跃升,更将首次支持NVIDIA的NVLinkFusion高速互联技术,兼容NVIDIA第六代NVLink交换机与MGX机架架构,实现Trainium4芯片与NVIDIAGPU的无缝互操作。这一合作并非简单的技术适配,而是AWS与NVIDIA达成的多代协作的起点,通过整合NVIDIA成熟的互联技术栈与AWS定制芯片优势,可降低开发成本、缩短上市周期,并显著提升复杂AI工作负载的性能与可管理性。

对于依赖NVIDIACUDA生态的企业而言,这一兼容策略大幅降低了迁移门槛。长期以来,NVIDIA凭借CUDA架构构建的软件生态形成技术护城河,占据全球云端AI芯片市场48%的份额,其GPU在训练场景中几乎处于垄断地位。Trainium4对NVLink的支持,意味着企业无需重构基于NVIDIAGPU开发的应用,即可接入AWS的低成本基础设施,这种“生态兼容+成本优势”的组合,将对NVIDIA的市场主导地位形成直接挑战。发布当日,资本市场已作出反应:亚马逊股价逼近239美元刷新日高,而NVIDIA股价涨幅显著收窄,AMD股价则跌近1.7%。

「93913原创内容,转载请注明出处」