用戶名: 密碼: 驗(yàn)證碼:

Credo高管:銅纜延壽7米傳輸,AI集群能效提升50%

摘要:在AI訓(xùn)練集群規(guī)模激增的背景下,網(wǎng)絡(luò)可靠性成為關(guān)鍵挑戰(zhàn)。Credo Semiconductor公司高管Don Barnetson指出,一次訓(xùn)練中斷可能造成數(shù)百萬美元損失。該公司通過有源電氣線纜(AEC)技術(shù),在短距離傳輸中以比光纖低50%的功耗實(shí)現(xiàn)更高可靠性,并將銅纜傳輸距離延伸至7米,為超大規(guī)模數(shù)據(jù)中心提供新解決方案。

  ICC訊  當(dāng)AI訓(xùn)練集群規(guī)模擴(kuò)展到數(shù)十萬顆GPU時,網(wǎng)絡(luò)系統(tǒng)正面臨前所未有的壓力。Credo Semiconductor產(chǎn)品高級副總裁Don Barnetson在EE Times播客節(jié)目《AI with Sally》中強(qiáng)調(diào),由于單次訓(xùn)練中斷可能造成數(shù)百萬美元損失,網(wǎng)絡(luò)可靠性已成為關(guān)鍵考量。

  Barnetson解釋道,AI集群相比傳統(tǒng)計(jì)算架構(gòu)增加了兩大網(wǎng)絡(luò):覆蓋整個數(shù)據(jù)中心的橫向擴(kuò)展網(wǎng)絡(luò),以及局限于機(jī)柜內(nèi)的縱向擴(kuò)展網(wǎng)絡(luò)。這兩種網(wǎng)絡(luò)采用類似UDP的“發(fā)送即遺忘”協(xié)議,要求網(wǎng)絡(luò)必須實(shí)現(xiàn)100%的數(shù)據(jù)包傳輸可靠性。目前大型集群中訓(xùn)練任務(wù)的成功率僅約80%,這意味著約20%的訓(xùn)練任務(wù)會因硬件故障中斷,造成巨大經(jīng)濟(jì)損失。

  在光學(xué)網(wǎng)絡(luò)中,除了硬件完全失效的“硬錯誤”外,更常見的是“軟錯誤”。當(dāng)光信號在傳輸過程中出現(xiàn)超過前向糾錯校正能力的錯誤時,系統(tǒng)會判定鏈路異常并執(zhí)行“鏈路震蕩”——即重置鏈路約15秒。這種重置會觸發(fā)整個網(wǎng)絡(luò)協(xié)議棧重新收斂,產(chǎn)生數(shù)億個廣播數(shù)據(jù)包,嚴(yán)重時可能導(dǎo)致訓(xùn)練任務(wù)完全中斷。

  與光纖相比,銅纜在短距離傳輸中展現(xiàn)出顯著優(yōu)勢。Barnetson指出:“光纖在長距離傳輸中不可替代,但許多實(shí)際鏈路距離要短得多?!痹谝豪浼夹g(shù)普及后,數(shù)據(jù)中心密度大幅提升,縱向擴(kuò)展網(wǎng)絡(luò)通常只需在5米范圍內(nèi)連接,這為銅纜應(yīng)用創(chuàng)造了條件。

  Credo開發(fā)的AEC技術(shù)通過在銅纜兩端集成重定時芯片,將單段長鏈路分割為三個獨(dú)立段。這種設(shè)計(jì)不僅延長了傳輸距離,還大幅提升了信號完整性。與光學(xué)方案相比,AEC可節(jié)省約50%功耗,且完全避免了光學(xué)連接器積塵、溫漂和靜電損傷導(dǎo)致的軟錯誤問題。

  “我們的AEC產(chǎn)品已積累70億小時現(xiàn)場運(yùn)行數(shù)據(jù),從未出現(xiàn)意外鏈路震蕩?!盉arnetson透露,其新一代“Zero Flap”技術(shù)專門針對鏈路穩(wěn)定性進(jìn)行優(yōu)化。在超大規(guī)模數(shù)據(jù)中心中,光學(xué)鏈路的軟錯誤發(fā)生率比硬件故障高出數(shù)百倍,而AEC從根本上解決了這個問題。

  盡管AEC優(yōu)勢明顯,但其傳輸距離目前限制在7米內(nèi)。Barnetson認(rèn)為,隨著液冷技術(shù)使數(shù)據(jù)中心布局更緊湊,首層互聯(lián)距離需求正從過去的20米縮短至5米,這使銅纜的應(yīng)用場景持續(xù)擴(kuò)大。“領(lǐng)先的超大規(guī)模企業(yè)已標(biāo)準(zhǔn)化采用AEC作為首層互聯(lián)方案,這是歷史上首次出現(xiàn)銅纜取代光纖的趨勢。”

  針對不同客戶的定制化需求,Credo采用全垂直整合模式。Barnetson舉例說明,曾為微軟開發(fā)內(nèi)置二層交換功能的特殊AEC,能在主交換器故障時實(shí)現(xiàn)毫秒級透明切換,保證視頻流不丟幀?!爱?dāng)電纜設(shè)計(jì)、固件開發(fā)與芯片架構(gòu)團(tuán)隊(duì)緊密協(xié)作時,我們能以更快速度推出更優(yōu)解決方案?!?

  在SerDes核心技術(shù)方面,Credo通過自研基礎(chǔ)單元實(shí)現(xiàn)了能效突破?!爱?dāng)競爭對手采用3納米或5納米工藝時,我們能在12納米節(jié)點(diǎn)實(shí)現(xiàn)同等性能,這帶來顯著的成本和可靠性優(yōu)勢?!痹摴就瑫r以IP授權(quán)和芯片兩種形式提供該技術(shù)。

  展望未來,Barnetson預(yù)測頂尖企業(yè)正在建設(shè)容納超過10萬顆GPU的單體數(shù)據(jù)中心,并通過園區(qū)級互聯(lián)實(shí)現(xiàn)百萬GPU集群。雖然100%的集群利用率難以實(shí)現(xiàn),但通過持續(xù)提升可靠性,利用率有望從當(dāng)前的80%回升至90%以上。對于企業(yè)級市場,他認(rèn)為出于數(shù)據(jù)安全考慮,自建專用集群的需求正在增長,這些用戶可以直接借鑒超大規(guī)模企業(yè)的經(jīng)驗(yàn)教訓(xùn)。

  隨著量子計(jì)算等新興技術(shù)的發(fā)展,網(wǎng)絡(luò)作為連接大規(guī)模計(jì)算單元的“粘合劑”將愈發(fā)重要。Credo將在即將舉辦的開放計(jì)算全球峰會上展示其Zero Flap系列光學(xué)新產(chǎn)品,持續(xù)推動網(wǎng)絡(luò)創(chuàng)新。

  原文:Extending The Life Of Copper In AI Training Clusters - EE Times Podcast - https://www.eetimes.com/podcasts/extending-the-life-of-copper-in-ai-training-cluster/   

內(nèi)容來自:訊石光通訊網(wǎng)
本文地址:http://www.tulsarestaurantguide.com//Site/CN/News/2025/10/11/20251011011401993015.htm 轉(zhuǎn)載請保留文章出處
關(guān)鍵字:
文章標(biāo)題:Credo高管:銅纜延壽7米傳輸,AI集群能效提升50%
1、凡本網(wǎng)注明“來源:訊石光通訊網(wǎng)”及標(biāo)有原創(chuàng)的所有作品,版權(quán)均屬于訊石光通訊網(wǎng)。未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位,也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和本站來源。
2、免責(zé)聲明,凡本網(wǎng)注明“來源:XXX(非訊石光通訊網(wǎng))”的作品,均為轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)。因可能存在第三方轉(zhuǎn)載無法確定原網(wǎng)地址,若作品內(nèi)容、版權(quán)爭議和其它問題,請聯(lián)系本網(wǎng),將第一時間刪除。
聯(lián)系方式:訊石光通訊網(wǎng)新聞中心 電話:0755-82960080-168   Right