ICC訊 當(dāng)AI訓(xùn)練集群規(guī)模擴(kuò)展到數(shù)十萬顆GPU時,網(wǎng)絡(luò)系統(tǒng)正面臨前所未有的壓力。Credo Semiconductor產(chǎn)品高級副總裁Don Barnetson在EE Times播客節(jié)目《AI with Sally》中強(qiáng)調(diào),由于單次訓(xùn)練中斷可能造成數(shù)百萬美元損失,網(wǎng)絡(luò)可靠性已成為關(guān)鍵考量。
Barnetson解釋道,AI集群相比傳統(tǒng)計(jì)算架構(gòu)增加了兩大網(wǎng)絡(luò):覆蓋整個數(shù)據(jù)中心的橫向擴(kuò)展網(wǎng)絡(luò),以及局限于機(jī)柜內(nèi)的縱向擴(kuò)展網(wǎng)絡(luò)。這兩種網(wǎng)絡(luò)采用類似UDP的“發(fā)送即遺忘”協(xié)議,要求網(wǎng)絡(luò)必須實(shí)現(xiàn)100%的數(shù)據(jù)包傳輸可靠性。目前大型集群中訓(xùn)練任務(wù)的成功率僅約80%,這意味著約20%的訓(xùn)練任務(wù)會因硬件故障中斷,造成巨大經(jīng)濟(jì)損失。
在光學(xué)網(wǎng)絡(luò)中,除了硬件完全失效的“硬錯誤”外,更常見的是“軟錯誤”。當(dāng)光信號在傳輸過程中出現(xiàn)超過前向糾錯校正能力的錯誤時,系統(tǒng)會判定鏈路異常并執(zhí)行“鏈路震蕩”——即重置鏈路約15秒。這種重置會觸發(fā)整個網(wǎng)絡(luò)協(xié)議棧重新收斂,產(chǎn)生數(shù)億個廣播數(shù)據(jù)包,嚴(yán)重時可能導(dǎo)致訓(xùn)練任務(wù)完全中斷。
與光纖相比,銅纜在短距離傳輸中展現(xiàn)出顯著優(yōu)勢。Barnetson指出:“光纖在長距離傳輸中不可替代,但許多實(shí)際鏈路距離要短得多?!痹谝豪浼夹g(shù)普及后,數(shù)據(jù)中心密度大幅提升,縱向擴(kuò)展網(wǎng)絡(luò)通常只需在5米范圍內(nèi)連接,這為銅纜應(yīng)用創(chuàng)造了條件。
Credo開發(fā)的AEC技術(shù)通過在銅纜兩端集成重定時芯片,將單段長鏈路分割為三個獨(dú)立段。這種設(shè)計(jì)不僅延長了傳輸距離,還大幅提升了信號完整性。與光學(xué)方案相比,AEC可節(jié)省約50%功耗,且完全避免了光學(xué)連接器積塵、溫漂和靜電損傷導(dǎo)致的軟錯誤問題。
“我們的AEC產(chǎn)品已積累70億小時現(xiàn)場運(yùn)行數(shù)據(jù),從未出現(xiàn)意外鏈路震蕩?!盉arnetson透露,其新一代“Zero Flap”技術(shù)專門針對鏈路穩(wěn)定性進(jìn)行優(yōu)化。在超大規(guī)模數(shù)據(jù)中心中,光學(xué)鏈路的軟錯誤發(fā)生率比硬件故障高出數(shù)百倍,而AEC從根本上解決了這個問題。
盡管AEC優(yōu)勢明顯,但其傳輸距離目前限制在7米內(nèi)。Barnetson認(rèn)為,隨著液冷技術(shù)使數(shù)據(jù)中心布局更緊湊,首層互聯(lián)距離需求正從過去的20米縮短至5米,這使銅纜的應(yīng)用場景持續(xù)擴(kuò)大。“領(lǐng)先的超大規(guī)模企業(yè)已標(biāo)準(zhǔn)化采用AEC作為首層互聯(lián)方案,這是歷史上首次出現(xiàn)銅纜取代光纖的趨勢。”
針對不同客戶的定制化需求,Credo采用全垂直整合模式。Barnetson舉例說明,曾為微軟開發(fā)內(nèi)置二層交換功能的特殊AEC,能在主交換器故障時實(shí)現(xiàn)毫秒級透明切換,保證視頻流不丟幀?!爱?dāng)電纜設(shè)計(jì)、固件開發(fā)與芯片架構(gòu)團(tuán)隊(duì)緊密協(xié)作時,我們能以更快速度推出更優(yōu)解決方案?!?
在SerDes核心技術(shù)方面,Credo通過自研基礎(chǔ)單元實(shí)現(xiàn)了能效突破?!爱?dāng)競爭對手采用3納米或5納米工藝時,我們能在12納米節(jié)點(diǎn)實(shí)現(xiàn)同等性能,這帶來顯著的成本和可靠性優(yōu)勢?!痹摴就瑫r以IP授權(quán)和芯片兩種形式提供該技術(shù)。
展望未來,Barnetson預(yù)測頂尖企業(yè)正在建設(shè)容納超過10萬顆GPU的單體數(shù)據(jù)中心,并通過園區(qū)級互聯(lián)實(shí)現(xiàn)百萬GPU集群。雖然100%的集群利用率難以實(shí)現(xiàn),但通過持續(xù)提升可靠性,利用率有望從當(dāng)前的80%回升至90%以上。對于企業(yè)級市場,他認(rèn)為出于數(shù)據(jù)安全考慮,自建專用集群的需求正在增長,這些用戶可以直接借鑒超大規(guī)模企業(yè)的經(jīng)驗(yàn)教訓(xùn)。
隨著量子計(jì)算等新興技術(shù)的發(fā)展,網(wǎng)絡(luò)作為連接大規(guī)模計(jì)算單元的“粘合劑”將愈發(fā)重要。Credo將在即將舉辦的開放計(jì)算全球峰會上展示其Zero Flap系列光學(xué)新產(chǎn)品,持續(xù)推動網(wǎng)絡(luò)創(chuàng)新。
原文:Extending The Life Of Copper In AI Training Clusters - EE Times Podcast - https://www.eetimes.com/podcasts/extending-the-life-of-copper-in-ai-training-cluster/