用戶名: 密碼: 驗(yàn)證碼:

Credo高管:銅纜延壽7米傳輸,AI集群能效提升50%

摘要:在AI訓(xùn)練集群規(guī)模激增的背景下,網(wǎng)絡(luò)可靠性成為關(guān)鍵挑戰(zhàn)。Credo Semiconductor公司高管Don Barnetson指出,一次訓(xùn)練中斷可能造成數(shù)百萬(wàn)美元損失。該公司通過(guò)有源電氣線纜(AEC)技術(shù),在短距離傳輸中以比光纖低50%的功耗實(shí)現(xiàn)更高可靠性,并將銅纜傳輸距離延伸至7米,為超大規(guī)模數(shù)據(jù)中心提供新解決方案。

  ICC訊  當(dāng)AI訓(xùn)練集群規(guī)模擴(kuò)展到數(shù)十萬(wàn)顆GPU時(shí),網(wǎng)絡(luò)系統(tǒng)正面臨前所未有的壓力。Credo Semiconductor產(chǎn)品高級(jí)副總裁Don Barnetson在EE Times播客節(jié)目《AI with Sally》中強(qiáng)調(diào),由于單次訓(xùn)練中斷可能造成數(shù)百萬(wàn)美元損失,網(wǎng)絡(luò)可靠性已成為關(guān)鍵考量。

  Barnetson解釋道,AI集群相比傳統(tǒng)計(jì)算架構(gòu)增加了兩大網(wǎng)絡(luò):覆蓋整個(gè)數(shù)據(jù)中心的橫向擴(kuò)展網(wǎng)絡(luò),以及局限于機(jī)柜內(nèi)的縱向擴(kuò)展網(wǎng)絡(luò)。這兩種網(wǎng)絡(luò)采用類(lèi)似UDP的“發(fā)送即遺忘”協(xié)議,要求網(wǎng)絡(luò)必須實(shí)現(xiàn)100%的數(shù)據(jù)包傳輸可靠性。目前大型集群中訓(xùn)練任務(wù)的成功率僅約80%,這意味著約20%的訓(xùn)練任務(wù)會(huì)因硬件故障中斷,造成巨大經(jīng)濟(jì)損失。

  在光學(xué)網(wǎng)絡(luò)中,除了硬件完全失效的“硬錯(cuò)誤”外,更常見(jiàn)的是“軟錯(cuò)誤”。當(dāng)光信號(hào)在傳輸過(guò)程中出現(xiàn)超過(guò)前向糾錯(cuò)校正能力的錯(cuò)誤時(shí),系統(tǒng)會(huì)判定鏈路異常并執(zhí)行“鏈路震蕩”——即重置鏈路約15秒。這種重置會(huì)觸發(fā)整個(gè)網(wǎng)絡(luò)協(xié)議棧重新收斂,產(chǎn)生數(shù)億個(gè)廣播數(shù)據(jù)包,嚴(yán)重時(shí)可能導(dǎo)致訓(xùn)練任務(wù)完全中斷。

  與光纖相比,銅纜在短距離傳輸中展現(xiàn)出顯著優(yōu)勢(shì)。Barnetson指出:“光纖在長(zhǎng)距離傳輸中不可替代,但許多實(shí)際鏈路距離要短得多?!痹谝豪浼夹g(shù)普及后,數(shù)據(jù)中心密度大幅提升,縱向擴(kuò)展網(wǎng)絡(luò)通常只需在5米范圍內(nèi)連接,這為銅纜應(yīng)用創(chuàng)造了條件。

  Credo開(kāi)發(fā)的AEC技術(shù)通過(guò)在銅纜兩端集成重定時(shí)芯片,將單段長(zhǎng)鏈路分割為三個(gè)獨(dú)立段。這種設(shè)計(jì)不僅延長(zhǎng)了傳輸距離,還大幅提升了信號(hào)完整性。與光學(xué)方案相比,AEC可節(jié)省約50%功耗,且完全避免了光學(xué)連接器積塵、溫漂和靜電損傷導(dǎo)致的軟錯(cuò)誤問(wèn)題。

  “我們的AEC產(chǎn)品已積累70億小時(shí)現(xiàn)場(chǎng)運(yùn)行數(shù)據(jù),從未出現(xiàn)意外鏈路震蕩?!盉arnetson透露,其新一代“Zero Flap”技術(shù)專(zhuān)門(mén)針對(duì)鏈路穩(wěn)定性進(jìn)行優(yōu)化。在超大規(guī)模數(shù)據(jù)中心中,光學(xué)鏈路的軟錯(cuò)誤發(fā)生率比硬件故障高出數(shù)百倍,而AEC從根本上解決了這個(gè)問(wèn)題。

  盡管AEC優(yōu)勢(shì)明顯,但其傳輸距離目前限制在7米內(nèi)。Barnetson認(rèn)為,隨著液冷技術(shù)使數(shù)據(jù)中心布局更緊湊,首層互聯(lián)距離需求正從過(guò)去的20米縮短至5米,這使銅纜的應(yīng)用場(chǎng)景持續(xù)擴(kuò)大?!邦I(lǐng)先的超大規(guī)模企業(yè)已標(biāo)準(zhǔn)化采用AEC作為首層互聯(lián)方案,這是歷史上首次出現(xiàn)銅纜取代光纖的趨勢(shì)?!?

  針對(duì)不同客戶的定制化需求,Credo采用全垂直整合模式。Barnetson舉例說(shuō)明,曾為微軟開(kāi)發(fā)內(nèi)置二層交換功能的特殊AEC,能在主交換器故障時(shí)實(shí)現(xiàn)毫秒級(jí)透明切換,保證視頻流不丟幀?!爱?dāng)電纜設(shè)計(jì)、固件開(kāi)發(fā)與芯片架構(gòu)團(tuán)隊(duì)緊密協(xié)作時(shí),我們能以更快速度推出更優(yōu)解決方案?!?

  在SerDes核心技術(shù)方面,Credo通過(guò)自研基礎(chǔ)單元實(shí)現(xiàn)了能效突破?!爱?dāng)競(jìng)爭(zhēng)對(duì)手采用3納米或5納米工藝時(shí),我們能在12納米節(jié)點(diǎn)實(shí)現(xiàn)同等性能,這帶來(lái)顯著的成本和可靠性優(yōu)勢(shì)?!痹摴就瑫r(shí)以IP授權(quán)和芯片兩種形式提供該技術(shù)。

  展望未來(lái),Barnetson預(yù)測(cè)頂尖企業(yè)正在建設(shè)容納超過(guò)10萬(wàn)顆GPU的單體數(shù)據(jù)中心,并通過(guò)園區(qū)級(jí)互聯(lián)實(shí)現(xiàn)百萬(wàn)GPU集群。雖然100%的集群利用率難以實(shí)現(xiàn),但通過(guò)持續(xù)提升可靠性,利用率有望從當(dāng)前的80%回升至90%以上。對(duì)于企業(yè)級(jí)市場(chǎng),他認(rèn)為出于數(shù)據(jù)安全考慮,自建專(zhuān)用集群的需求正在增長(zhǎng),這些用戶可以直接借鑒超大規(guī)模企業(yè)的經(jīng)驗(yàn)教訓(xùn)。

  隨著量子計(jì)算等新興技術(shù)的發(fā)展,網(wǎng)絡(luò)作為連接大規(guī)模計(jì)算單元的“粘合劑”將愈發(fā)重要。Credo將在即將舉辦的開(kāi)放計(jì)算全球峰會(huì)上展示其Zero Flap系列光學(xué)新產(chǎn)品,持續(xù)推動(dòng)網(wǎng)絡(luò)創(chuàng)新。

  原文:Extending The Life Of Copper In AI Training Clusters - EE Times Podcast - https://www.eetimes.com/podcasts/extending-the-life-of-copper-in-ai-training-cluster/   

內(nèi)容來(lái)自:訊石光通訊網(wǎng)
本文地址:http://www.tulsarestaurantguide.com//Site/CN/News/2025/10/11/20251011011401993015.htm 轉(zhuǎn)載請(qǐng)保留文章出處
關(guān)鍵字:
文章標(biāo)題:Credo高管:銅纜延壽7米傳輸,AI集群能效提升50%
1、凡本網(wǎng)注明“來(lái)源:訊石光通訊網(wǎng)”及標(biāo)有原創(chuàng)的所有作品,版權(quán)均屬于訊石光通訊網(wǎng)。未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位,也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和本站來(lái)源。
2、免責(zé)聲明,凡本網(wǎng)注明“來(lái)源:XXX(非訊石光通訊網(wǎng))”的作品,均為轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。因可能存在第三方轉(zhuǎn)載無(wú)法確定原網(wǎng)地址,若作品內(nèi)容、版權(quán)爭(zhēng)議和其它問(wèn)題,請(qǐng)聯(lián)系本網(wǎng),將第一時(shí)間刪除。
聯(lián)系方式:訊石光通訊網(wǎng)新聞中心 電話:0755-82960080-168   Right