ICC訊 美國拉斯維加斯,2025年10月14日 —— 在Oracle AI World大會上,甲骨文公司今日正式發(fā)布Oracle云基礎設施(Oracle Cloud Infrastructure,OCI)Zettascale10——全球規(guī)模最大的云端AI超級計算機。OCI Zettascale10通過跨數(shù)據(jù)中心連接數(shù)十萬顆NVIDIA GPU,形成多個吉瓦級計算集群,提供高達16 ZettaFLOPS的突破性峰值性能。該架構正是甲骨文與OpenAI在德州阿比林市合作建設的"星際之門"(Stargate)旗艦超算集群的核心基礎?;谛乱淮鶲racle Acceleron RoCE網(wǎng)絡架構與NVIDIA AI基礎設施,OCI Zettascale10實現(xiàn)了前所未有的擴展能力、極低的集群內(nèi)GPU間延遲、領先的性價比、更高的集群利用率以及大規(guī)模AI工作負載所需的可靠性。
OCI Zettascale10是2024年9月發(fā)布的首代Zettascale云計算集群的重大升級。這些集群部署在吉瓦級大型數(shù)據(jù)中心園區(qū)內(nèi),通過在半徑兩公里范圍內(nèi)實現(xiàn)超高密度優(yōu)化,為大規(guī)模AI訓練工作負載提供最佳的GPU間延遲。該架構正與OpenAI合作部署于阿比林的"星際之門"基地。
甲骨文云基礎設施執(zhí)行副總裁Mahesh Thiagarajan表示:"通過OCI Zettascale10,我們將突破性的Oracle Acceleron RoCE網(wǎng)絡架構與新一代NVIDIA AI基礎設施深度融合,以提供規(guī)模空前的多吉瓦級AI算力??蛻裟軌蛞愿偷膯挝恍阅芄臉嫿ā⒂柧毑⒉渴鹌渥畲笠?guī)模的AI模型,同時獲得高可靠性。此外,客戶還可在甲骨文分布式云中自由運作,并享受嚴格的數(shù)據(jù)與AI主權管控。"
OpenAI基礎設施與工業(yè)計算副總裁Peter Hoeschele指出:"OCI Zettascale10網(wǎng)絡與集群架構率先部署于我們與甲骨文合作的旗艦項目——德州阿比林'星際之門'基地。這一高度可擴展的定制化RoCE設計在吉瓦級別實現(xiàn)了全局網(wǎng)絡性能最大化,同時將大部分電力集中于計算任務。我們期待繼續(xù)攜手擴展阿比林基地及更廣泛的'星際之門'項目。"
甲骨文計劃向客戶提供多吉瓦規(guī)模的OCI Zettascale10部署方案。初期集群將最高支持80萬顆NVIDIA GPU,憑借Oracle Acceleron超低延遲RoCEv2網(wǎng)絡實現(xiàn)高GPU間帶寬,從而提供可預測的性能與卓越的成本效益。
NVIDIA超大規(guī)模業(yè)務副總裁Ian Buck強調(diào):"甲骨文與NVIDIA正通過OCI分布式云和我們的全棧AI基礎設施,共同提供空前規(guī)模的AI算力。搭載NVIDIA全棧AI基礎設施的OCI Zettascale10,為推進尖端AI研究提供了必需的計算架構,助力全球各組織從實驗階段邁向工業(yè)化AI時代。"
Oracle Acceleron RoCE網(wǎng)絡為AI提供關鍵支撐
Oracle Acceleron RoCE網(wǎng)絡架構是一項關鍵創(chuàng)新,使客戶能充分利用OCI Zettascale10的算力優(yōu)勢,在云端完成AI工作負載的構建、訓練與推理。該技術利用現(xiàn)代GPU網(wǎng)卡內(nèi)置的交換能力,使每張網(wǎng)卡可同時連接多個處于獨立隔離網(wǎng)絡平面的交換機。當某一平面出現(xiàn)故障時,流量會自動切換至其他平面,顯著提升網(wǎng)絡整體規(guī)模與可靠性,避免因中斷導致重大損失。該架構的核心價值包括:
擴展性強、層級精簡的彈性架構:通過將GPU網(wǎng)卡作為微型交換機連接多個物理與邏輯隔離平面,幫助客戶以更低總成本快速部署大型AI集群,在擴大規(guī)模的同時減少網(wǎng)絡層級、降低功耗與成本。
更高可靠性:通過禁止跨平面數(shù)據(jù)共享,將流量從不穩(wěn)定或擁堵平面移出,保障AI任務穩(wěn)定性,避免因檢查點重啟造成損失。
穩(wěn)定性能:相比傳統(tǒng)三層網(wǎng)絡設計減少一個層級,為客戶提供更均勻的GPU間延遲,提升大規(guī)模AI訓練與推理的可預測性。
高效光模塊:支持線性可插拔光模塊與線性接收光模塊,在保持400G/800G吞吐量的同時降低網(wǎng)絡與冷卻成本,使客戶能將更多電力預算投入計算任務。
運維靈活性:通過平面級維護與獨立網(wǎng)絡操作系統(tǒng)更新,幫助客戶減少停機時間并加速功能部署。
OCI Zettascale10現(xiàn)已接受預訂,預計明年下半年正式投入使用,最高支持80萬顆NVIDIA AI基礎設施GPU平臺。
更多資源
- 觀看Mahesh Thiagarajan在Oracle AI World的主題演講:On Air | Oracle AI World 2025 | https://www.oracle.com/ai-world/on-air/
- 了解OCI AI基礎設施詳情:AI Infrastructure | Oracle | https://www.oracle.com/ai-infrastructure/
關于甲骨文公司
甲骨文提供集成式應用套件及Oracle云中安全、自治的基礎設施。了解更多信息,請訪問oracle.com。
關于Oracle AI World
Oracle AI World是客戶與合作伙伴探索最新產(chǎn)品技術創(chuàng)新、洞察行業(yè)AI應用實踐、連接專家與同行的盛會。參會者將獲得推動組織即時發(fā)展的實用建議,并深入了解甲骨文如何助力釋放云與AI的全部潛能。立即訪問oracle.com/ai-world注冊參會,并通過oracle.com/news與linkedin.com/company/oracle關注最新動態(tài)。