北京2025年12月4日 /美通社/ -- 亞馬遜云科技在2025 re:Invent全球大會上,宣布Amazon EC2 Trainium3 UltraServers(下稱Trn3 UltraServers)現已正式可用,由亞馬遜云科技首款3nm AI芯片驅動,為不同規模的企業提供運行高強度AI訓練與推理工作負載的能力,幫助客戶更快更省地訓練和部署AI模型。與Trainium2 UltraServers相比,Trn3 UltraServers在AI場景中提供高性能,實現高達4.4倍的計算性能、4倍的能效提升以及近4倍的內存帶寬,使AI開發速度更快、運營成本更低。Trn3 UltraServers可擴展至最多144顆Trainium3芯片,提供高達362 FP8 PFLOPs的性能,延遲降低4倍,可更快速訓練更大規模的模型,并支持大規模推理場景。包括Anthropic、Karakuri、Metagenomics、Neto.ai、Ricoh與Splashmusic在內的客戶已經通過Trainium將訓練與推理成本降低至原來的50%。值得的一提的是,Amazon Bedrock也已在Trainium3上運行生產級工作負載。
AI模型規模與復雜度持續提升,正在逼近計算和網絡基礎設施的極限。客戶希望縮短訓練時間并降低推理延遲(即AI系統接收輸入到生成對應輸出的時間)。如今,訓練尖端模型所需的基礎設施投入只有少數企業能夠承擔,而大規模提供 AI 應用服務則需要大量計算資源,成本很容易失控。即使采用當前最快的加速實例,僅靠增大集群規模也難以突破并行化限制,無法顯著縮短訓練時間,而實時推理需求則進一步超出單實例架構的能力邊界。為幫助客戶突破這些限制,亞馬遜云科技宣布Amazon EC2 Trn3 UltraServers今日起正式可用。Trn3 UltraServers基于全新的3nm制程工藝的Trainium3芯片,使各類規模的企業能夠更快訓練更大的AI模型,以更低成本服務更多用戶,讓更多機構能夠以更低門檻獲取支撐未來前沿AI項目所需的算力。
Trainium3 UltraServers:為下一代AI工作負載而生
Trn3 UltraServers在單一系統中集成多達144顆Trainium3芯片,計算性能較Trainium2 UltraServers提升高達4.4倍。這使企業能夠處理過去難以實現或成本過高的AI項目:模型訓練速度更快,周期從數月縮短至數周;可同時處理更多用戶的推理請求;并進一步縮短產品上市時間,并降低整體運營成本。
使用OpenAI的開源權重模型GPT-OSS對Trn3 UltraServers進行測試發現,相比Trn2 UltraServers,其單芯片吞吐量提升3倍,響應速度快4倍。這意味著企業在更小的基礎設施規模下即可擴展AI應用以應對峰值需求,直接提升用戶體驗,同時降低單次推理請求的成本。
這些改進源于為AI場景專門設計的Trainium3芯片。該芯片通過先進的設計創新、用于加速芯片間數據傳輸的優化互連結構以及能夠在處理大型AI模型時消除瓶頸的增強型內存系統,實現了突破性的性能提升。除了性能增長之外,Trainium3實現顯著的節能效果,與前幾代相比能效提升40%,在大規模部署中尤為關鍵,從而能夠提供更具成本效益的AI基礎設施,同時降低數據中心的整體能耗與環境影響。
專為規模化設計的先進網絡基礎設施
亞馬遜云科技將Trn3 UltraServer打造為從芯片架構到軟件棧的垂直集成系統。該集成的核心是一套專為消除分布式AI計算中常見通信瓶頸而設計的網絡基礎設施。全新的NeuronSwitch-v1使每臺UltraServer的帶寬提升2倍,而增強型Neuron Fabric網絡則將芯片間通信延遲降低至不足10微秒。
未來的AI工作負載,包括agent系統、MoE架構和強化學習應用,都需要海量數據在處理器之間無縫流動。亞馬遜云科技打造的這一網絡體系,使過去難以實現的近乎即時響應型AI應用成為可能,并進一步解鎖全新用例,例如可即時處理并執行數據的實時決策系統,以及響應自然、無延遲的流暢對話式AI。
對于有規模化需求的客戶,EC2 UltraClusters 3.0可連接數千臺UltraServer,最多可搭載100萬顆Trainium芯片,是上一代的10倍,從而為訓練下一代基礎模型提供所需的基礎設施。如此規模讓許多過去無法實現的任務成為可能,包括在萬億token級數據集上訓練多模態模型,或為數百萬并發用戶提供實時推理服務。
客戶已在前沿規模上獲得顯著成果
客戶已經從Trainium中獲得顯著價值。與其他方案相比,Anthropic、Karakuri、Metagenomics、Neto.ai、Ricoh與Splashmusic等企業通過Trainium將訓練成本降低了最多50%。亞馬遜云科技的基礎模型托管服務Amazon Bedrock目前已在Trainium3上運行生產級工作負載,充分證明該芯片已具備企業級部署能力。
包括Decart在內的先鋒AI企業正借助Trainium3處理實時生成式視頻等高要求工作負載。Decart是一家專注高效優化生成式視頻與圖像模型的AI實驗室,為實時互動體驗提供技術支持。該公司利用Trainium3實現了幀生成速度提升4倍、成本僅為GPU一半,這使得計算密集型應用規模化落地變得可行,并催生從個性化實時體驗到大規模模擬在內的全新互動內容類型。
在Project Rainier項目中,亞馬遜云科技與Anthropic合作,將超過50萬顆Trainium2芯片連接為全球最大AI算力集群,其規模是訓練Anthropic上一代模型所用基礎設施的5倍。Trainium3在此基礎上進一步擴展UltraCluster架構,為下一代大規模AI算力集群和前沿模型提供更高的性能與可擴展性。
展望下一代Trainium
亞馬遜云科技已經著手研發下一代Trainium4,其設計目標是在各項性能指標上實現顯著提升,包括至少6倍的FP4處理性能、3倍的FP8性能以及4倍的內存帶寬,以支撐下一代前沿模型的訓練與推理需求。隨著硬件與軟件的持續優化,最終的整體性能提升將遠高于這些芯片參數本身的提升幅度。
Trainium4在FP8性能上的3倍提升是一次基礎性飛躍,使AI模型的訓練速度至少提升3倍,或處理至少3倍的推理請求,并可通過持續的軟件增強與特定工作負載優化獲得更多額外加速。FP8作為行業標準的精度格式,能夠在現代AI工作負載中平衡模型準確性與計算效率。
為實現更強的擴展能力,Trainium4將支持NVIDIA NVLink Fusion高速芯片互連技術。通過這一集成,Trainium4、Graviton與Elastic Fabric Adapter(EFA)能夠在通用MGX機架內無縫協作,構建兼容GPU與Trainium服務器的高性價比機架級AI基礎設施,形成一個靈活且高性能的平臺,為高要求的AI模型訓練與推理工作負載進行優化。