ICC訊 當(dāng)AI訓(xùn)練集群規(guī)模擴(kuò)展到數(shù)十萬(wàn)顆GPU時(shí),網(wǎng)絡(luò)系統(tǒng)正面臨前所未有的壓力。Credo Semiconductor產(chǎn)品高級(jí)副總裁Don Barnetson在EE Times播客節(jié)目《AI with Sally》中強(qiáng)調(diào),由于單次訓(xùn)練中斷可能造成數(shù)百萬(wàn)美元損失,網(wǎng)絡(luò)可靠性已成為關(guān)鍵考量。
Barnetson解釋道,AI集群相比傳統(tǒng)計(jì)算架構(gòu)增加了兩大網(wǎng)絡(luò):覆蓋整個(gè)數(shù)據(jù)中心的橫向擴(kuò)展網(wǎng)絡(luò),以及局限于機(jī)柜內(nèi)的縱向擴(kuò)展網(wǎng)絡(luò)。這兩種網(wǎng)絡(luò)采用類(lèi)似UDP的“發(fā)送即遺忘”協(xié)議,要求網(wǎng)絡(luò)必須實(shí)現(xiàn)100%的數(shù)據(jù)包傳輸可靠性。目前大型集群中訓(xùn)練任務(wù)的成功率僅約80%,這意味著約20%的訓(xùn)練任務(wù)會(huì)因硬件故障中斷,造成巨大經(jīng)濟(jì)損失。
在光學(xué)網(wǎng)絡(luò)中,除了硬件完全失效的“硬錯(cuò)誤”外,更常見(jiàn)的是“軟錯(cuò)誤”。當(dāng)光信號(hào)在傳輸過(guò)程中出現(xiàn)超過(guò)前向糾錯(cuò)校正能力的錯(cuò)誤時(shí),系統(tǒng)會(huì)判定鏈路異常并執(zhí)行“鏈路震蕩”——即重置鏈路約15秒。這種重置會(huì)觸發(fā)整個(gè)網(wǎng)絡(luò)協(xié)議棧重新收斂,產(chǎn)生數(shù)億個(gè)廣播數(shù)據(jù)包,嚴(yán)重時(shí)可能導(dǎo)致訓(xùn)練任務(wù)完全中斷。
與光纖相比,銅纜在短距離傳輸中展現(xiàn)出顯著優(yōu)勢(shì)。Barnetson指出:“光纖在長(zhǎng)距離傳輸中不可替代,但許多實(shí)際鏈路距離要短得多?!痹谝豪浼夹g(shù)普及后,數(shù)據(jù)中心密度大幅提升,縱向擴(kuò)展網(wǎng)絡(luò)通常只需在5米范圍內(nèi)連接,這為銅纜應(yīng)用創(chuàng)造了條件。
Credo開(kāi)發(fā)的AEC技術(shù)通過(guò)在銅纜兩端集成重定時(shí)芯片,將單段長(zhǎng)鏈路分割為三個(gè)獨(dú)立段。這種設(shè)計(jì)不僅延長(zhǎng)了傳輸距離,還大幅提升了信號(hào)完整性。與光學(xué)方案相比,AEC可節(jié)省約50%功耗,且完全避免了光學(xué)連接器積塵、溫漂和靜電損傷導(dǎo)致的軟錯(cuò)誤問(wèn)題。
“我們的AEC產(chǎn)品已積累70億小時(shí)現(xiàn)場(chǎng)運(yùn)行數(shù)據(jù),從未出現(xiàn)意外鏈路震蕩?!盉arnetson透露,其新一代“Zero Flap”技術(shù)專(zhuān)門(mén)針對(duì)鏈路穩(wěn)定性進(jìn)行優(yōu)化。在超大規(guī)模數(shù)據(jù)中心中,光學(xué)鏈路的軟錯(cuò)誤發(fā)生率比硬件故障高出數(shù)百倍,而AEC從根本上解決了這個(gè)問(wèn)題。
盡管AEC優(yōu)勢(shì)明顯,但其傳輸距離目前限制在7米內(nèi)。Barnetson認(rèn)為,隨著液冷技術(shù)使數(shù)據(jù)中心布局更緊湊,首層互聯(lián)距離需求正從過(guò)去的20米縮短至5米,這使銅纜的應(yīng)用場(chǎng)景持續(xù)擴(kuò)大?!邦I(lǐng)先的超大規(guī)模企業(yè)已標(biāo)準(zhǔn)化采用AEC作為首層互聯(lián)方案,這是歷史上首次出現(xiàn)銅纜取代光纖的趨勢(shì)?!?
針對(duì)不同客戶的定制化需求,Credo采用全垂直整合模式。Barnetson舉例說(shuō)明,曾為微軟開(kāi)發(fā)內(nèi)置二層交換功能的特殊AEC,能在主交換器故障時(shí)實(shí)現(xiàn)毫秒級(jí)透明切換,保證視頻流不丟幀?!爱?dāng)電纜設(shè)計(jì)、固件開(kāi)發(fā)與芯片架構(gòu)團(tuán)隊(duì)緊密協(xié)作時(shí),我們能以更快速度推出更優(yōu)解決方案?!?
在SerDes核心技術(shù)方面,Credo通過(guò)自研基礎(chǔ)單元實(shí)現(xiàn)了能效突破?!爱?dāng)競(jìng)爭(zhēng)對(duì)手采用3納米或5納米工藝時(shí),我們能在12納米節(jié)點(diǎn)實(shí)現(xiàn)同等性能,這帶來(lái)顯著的成本和可靠性優(yōu)勢(shì)?!痹摴就瑫r(shí)以IP授權(quán)和芯片兩種形式提供該技術(shù)。
展望未來(lái),Barnetson預(yù)測(cè)頂尖企業(yè)正在建設(shè)容納超過(guò)10萬(wàn)顆GPU的單體數(shù)據(jù)中心,并通過(guò)園區(qū)級(jí)互聯(lián)實(shí)現(xiàn)百萬(wàn)GPU集群。雖然100%的集群利用率難以實(shí)現(xiàn),但通過(guò)持續(xù)提升可靠性,利用率有望從當(dāng)前的80%回升至90%以上。對(duì)于企業(yè)級(jí)市場(chǎng),他認(rèn)為出于數(shù)據(jù)安全考慮,自建專(zhuān)用集群的需求正在增長(zhǎng),這些用戶可以直接借鑒超大規(guī)模企業(yè)的經(jīng)驗(yàn)教訓(xùn)。
隨著量子計(jì)算等新興技術(shù)的發(fā)展,網(wǎng)絡(luò)作為連接大規(guī)模計(jì)算單元的“粘合劑”將愈發(fā)重要。Credo將在即將舉辦的開(kāi)放計(jì)算全球峰會(huì)上展示其Zero Flap系列光學(xué)新產(chǎn)品,持續(xù)推動(dòng)網(wǎng)絡(luò)創(chuàng)新。
原文:Extending The Life Of Copper In AI Training Clusters - EE Times Podcast - https://www.eetimes.com/podcasts/extending-the-life-of-copper-in-ai-training-cluster/