ICC訊 美國(guó)拉斯維加斯,2025年10月14日 —— 在Oracle AI World大會(huì)上,甲骨文公司今日正式發(fā)布Oracle云基礎(chǔ)設(shè)施(Oracle Cloud Infrastructure,OCI)Zettascale10——全球規(guī)模最大的云端AI超級(jí)計(jì)算機(jī)。OCI Zettascale10通過跨數(shù)據(jù)中心連接數(shù)十萬(wàn)顆NVIDIA GPU,形成多個(gè)吉瓦級(jí)計(jì)算集群,提供高達(dá)16 ZettaFLOPS的突破性峰值性能。該架構(gòu)正是甲骨文與OpenAI在德州阿比林市合作建設(shè)的"星際之門"(Stargate)旗艦超算集群的核心基礎(chǔ)?;谛乱淮鶲racle Acceleron RoCE網(wǎng)絡(luò)架構(gòu)與NVIDIA AI基礎(chǔ)設(shè)施,OCI Zettascale10實(shí)現(xiàn)了前所未有的擴(kuò)展能力、極低的集群內(nèi)GPU間延遲、領(lǐng)先的性價(jià)比、更高的集群利用率以及大規(guī)模AI工作負(fù)載所需的可靠性。
OCI Zettascale10是2024年9月發(fā)布的首代Zettascale云計(jì)算集群的重大升級(jí)。這些集群部署在吉瓦級(jí)大型數(shù)據(jù)中心園區(qū)內(nèi),通過在半徑兩公里范圍內(nèi)實(shí)現(xiàn)超高密度優(yōu)化,為大規(guī)模AI訓(xùn)練工作負(fù)載提供最佳的GPU間延遲。該架構(gòu)正與OpenAI合作部署于阿比林的"星際之門"基地。
甲骨文云基礎(chǔ)設(shè)施執(zhí)行副總裁Mahesh Thiagarajan表示:"通過OCI Zettascale10,我們將突破性的Oracle Acceleron RoCE網(wǎng)絡(luò)架構(gòu)與新一代NVIDIA AI基礎(chǔ)設(shè)施深度融合,以提供規(guī)模空前的多吉瓦級(jí)AI算力。客戶能夠以更低的單位性能功耗構(gòu)建、訓(xùn)練并部署其最大規(guī)模的AI模型,同時(shí)獲得高可靠性。此外,客戶還可在甲骨文分布式云中自由運(yùn)作,并享受嚴(yán)格的數(shù)據(jù)與AI主權(quán)管控。"
OpenAI基礎(chǔ)設(shè)施與工業(yè)計(jì)算副總裁Peter Hoeschele指出:"OCI Zettascale10網(wǎng)絡(luò)與集群架構(gòu)率先部署于我們與甲骨文合作的旗艦項(xiàng)目——德州阿比林'星際之門'基地。這一高度可擴(kuò)展的定制化RoCE設(shè)計(jì)在吉瓦級(jí)別實(shí)現(xiàn)了全局網(wǎng)絡(luò)性能最大化,同時(shí)將大部分電力集中于計(jì)算任務(wù)。我們期待繼續(xù)攜手?jǐn)U展阿比林基地及更廣泛的'星際之門'項(xiàng)目。"
甲骨文計(jì)劃向客戶提供多吉瓦規(guī)模的OCI Zettascale10部署方案。初期集群將最高支持80萬(wàn)顆NVIDIA GPU,憑借Oracle Acceleron超低延遲RoCEv2網(wǎng)絡(luò)實(shí)現(xiàn)高GPU間帶寬,從而提供可預(yù)測(cè)的性能與卓越的成本效益。
NVIDIA超大規(guī)模業(yè)務(wù)副總裁Ian Buck強(qiáng)調(diào):"甲骨文與NVIDIA正通過OCI分布式云和我們的全棧AI基礎(chǔ)設(shè)施,共同提供空前規(guī)模的AI算力。搭載NVIDIA全棧AI基礎(chǔ)設(shè)施的OCI Zettascale10,為推進(jìn)尖端AI研究提供了必需的計(jì)算架構(gòu),助力全球各組織從實(shí)驗(yàn)階段邁向工業(yè)化AI時(shí)代。"
Oracle Acceleron RoCE網(wǎng)絡(luò)為AI提供關(guān)鍵支撐
Oracle Acceleron RoCE網(wǎng)絡(luò)架構(gòu)是一項(xiàng)關(guān)鍵創(chuàng)新,使客戶能充分利用OCI Zettascale10的算力優(yōu)勢(shì),在云端完成AI工作負(fù)載的構(gòu)建、訓(xùn)練與推理。該技術(shù)利用現(xiàn)代GPU網(wǎng)卡內(nèi)置的交換能力,使每張網(wǎng)卡可同時(shí)連接多個(gè)處于獨(dú)立隔離網(wǎng)絡(luò)平面的交換機(jī)。當(dāng)某一平面出現(xiàn)故障時(shí),流量會(huì)自動(dòng)切換至其他平面,顯著提升網(wǎng)絡(luò)整體規(guī)模與可靠性,避免因中斷導(dǎo)致重大損失。該架構(gòu)的核心價(jià)值包括:
擴(kuò)展性強(qiáng)、層級(jí)精簡(jiǎn)的彈性架構(gòu):通過將GPU網(wǎng)卡作為微型交換機(jī)連接多個(gè)物理與邏輯隔離平面,幫助客戶以更低總成本快速部署大型AI集群,在擴(kuò)大規(guī)模的同時(shí)減少網(wǎng)絡(luò)層級(jí)、降低功耗與成本。
更高可靠性:通過禁止跨平面數(shù)據(jù)共享,將流量從不穩(wěn)定或擁堵平面移出,保障AI任務(wù)穩(wěn)定性,避免因檢查點(diǎn)重啟造成損失。
穩(wěn)定性能:相比傳統(tǒng)三層網(wǎng)絡(luò)設(shè)計(jì)減少一個(gè)層級(jí),為客戶提供更均勻的GPU間延遲,提升大規(guī)模AI訓(xùn)練與推理的可預(yù)測(cè)性。
高效光模塊:支持線性可插拔光模塊與線性接收光模塊,在保持400G/800G吞吐量的同時(shí)降低網(wǎng)絡(luò)與冷卻成本,使客戶能將更多電力預(yù)算投入計(jì)算任務(wù)。
運(yùn)維靈活性:通過平面級(jí)維護(hù)與獨(dú)立網(wǎng)絡(luò)操作系統(tǒng)更新,幫助客戶減少停機(jī)時(shí)間并加速功能部署。
OCI Zettascale10現(xiàn)已接受預(yù)訂,預(yù)計(jì)明年下半年正式投入使用,最高支持80萬(wàn)顆NVIDIA AI基礎(chǔ)設(shè)施GPU平臺(tái)。
更多資源
- 觀看Mahesh Thiagarajan在Oracle AI World的主題演講:On Air | Oracle AI World 2025 | https://www.oracle.com/ai-world/on-air/
- 了解OCI AI基礎(chǔ)設(shè)施詳情:AI Infrastructure | Oracle | https://www.oracle.com/ai-infrastructure/
關(guān)于甲骨文公司
甲骨文提供集成式應(yīng)用套件及Oracle云中安全、自治的基礎(chǔ)設(shè)施。了解更多信息,請(qǐng)?jiān)L問oracle.com。
關(guān)于Oracle AI World
Oracle AI World是客戶與合作伙伴探索最新產(chǎn)品技術(shù)創(chuàng)新、洞察行業(yè)AI應(yīng)用實(shí)踐、連接專家與同行的盛會(huì)。參會(huì)者將獲得推動(dòng)組織即時(shí)發(fā)展的實(shí)用建議,并深入了解甲骨文如何助力釋放云與AI的全部潛能。立即訪問oracle.com/ai-world注冊(cè)參會(huì),并通過oracle.com/news與linkedin.com/company/oracle關(guān)注最新動(dòng)態(tài)。