一、MOE模型需要更大規(guī)模超節(jié)點(diǎn)系統(tǒng)
混合專家模型(Mixture of Experts, MoE)憑借創(chuàng)新設(shè)計(jì),巧妙破解了模型規(guī)模、計(jì)算效率與推理性能三者間的調(diào)和難題,已成為當(dāng)前大語言模型(Large Language Model, LLM)領(lǐng)域的主流架構(gòu),為大模型技術(shù)突破提供關(guān)鍵支撐。與此同時(shí),MoE 模型的專家數(shù)量正呈現(xiàn)顯著增長趨勢。更多的專家數(shù)量不僅能直接提升模型容量、優(yōu)化計(jì)算效率,還能進(jìn)一步推動各專家在特定任務(wù)領(lǐng)域的專業(yè)化演進(jìn),從而持續(xù)增強(qiáng)模型整體能力與適配性。
隨著MOE模型專家數(shù)量的增長,若要實(shí)現(xiàn)更優(yōu)的推理響應(yīng)性能(TTFT/TPOT),需部署更多 GPU 以承載不同專(一般建議每卡專家數(shù)1-2個(gè))構(gòu)建大EP(Expert Parallelism)部署架構(gòu)。然而,EP 規(guī)模的擴(kuò)大將直接導(dǎo)致通信占比顯著提升,進(jìn)而成為制約推理響應(yīng)時(shí)延的核心因素。在此背景下,超節(jié)點(diǎn)憑借其大帶寬、低時(shí)延的 GPU 卡間互聯(lián)能力,有效降低 MOE 模型大 EP 部署中的通信開銷,為性能優(yōu)化提供關(guān)鍵支撐。相應(yīng)地,超節(jié)點(diǎn)的規(guī)模需與MOE模型的大 EP 部署需求相匹配,才能充分發(fā)揮其技術(shù)優(yōu)勢。圖1給出了當(dāng)前典型MOE模型專家數(shù)量以及推薦超節(jié)點(diǎn)規(guī)模。
典型MOE模型專家數(shù)量與超節(jié)點(diǎn)規(guī)模
二、大規(guī)模超節(jié)點(diǎn)系統(tǒng)的技術(shù)路線與挑戰(zhàn)
當(dāng)前實(shí)現(xiàn)大規(guī)模超節(jié)點(diǎn)的技術(shù)路線主要有三種:全銅纜互聯(lián)、銅光混合互聯(lián)和全光互聯(lián)。不同方案在部署規(guī)模、時(shí)延、成本及工程可行性上存在顯著差異:
全銅纜互聯(lián)僅適用于單柜或相鄰雙柜部署,其物理距離限制(≤3m)與單柜內(nèi)高密度GPU引發(fā)的供電、散熱及線纜密度、機(jī)房承重等問題,導(dǎo)致工程擴(kuò)展性和可維護(hù)性的巨大挑戰(zhàn)。
銅光混合互聯(lián)雖支持多柜擴(kuò)展,但依賴“柜內(nèi)銅纜+柜間光互聯(lián)”兩級交換架構(gòu),引入更高時(shí)延與更加復(fù)雜的scale up協(xié)議能力要求,并且兩層交換機(jī)顯著增加系統(tǒng)成本。
全光互聯(lián)通過每GPU直連光接口與一層HighRadix交換機(jī)互聯(lián),當(dāng)前HighRadix交換機(jī)可支持512端口200Gbps,可實(shí)現(xiàn)一層交換機(jī)512卡超節(jié)點(diǎn)。全光互聯(lián)可以實(shí)現(xiàn)較低時(shí)延和靈活的部署規(guī)模;其核心挑戰(zhàn)在于光器件成本與可靠性,因此要實(shí)現(xiàn)大規(guī)模全光互聯(lián)超節(jié)點(diǎn)仍需針對這些問題完成技術(shù)與產(chǎn)業(yè)突破。
一層交換全光互聯(lián)超節(jié)點(diǎn)
三、ETH-X Ultra全光互聯(lián)超節(jié)點(diǎn)目標(biāo)
ODCC網(wǎng)絡(luò)工作組啟動的ETH-X Ultra項(xiàng)目旨在面向大規(guī)模超節(jié)點(diǎn)系統(tǒng),聯(lián)合產(chǎn)業(yè)合作伙伴共同探索全光互聯(lián)超節(jié)點(diǎn)相關(guān)技術(shù)與解決方案。針對全光互聯(lián)超節(jié)點(diǎn)面臨的成本、可靠性、可維護(hù)性挑戰(zhàn)設(shè)定以下三大目標(biāo):
1. 極致成本控制 :
實(shí)現(xiàn)系統(tǒng)連接成本 ≤0.2$/Gbps (較傳統(tǒng)方案降低60%+),通過光器件標(biāo)準(zhǔn)化與高密度設(shè)計(jì)壓縮傳輸成本。
2.超高可靠性保障 :
超節(jié)點(diǎn)互聯(lián)鏈路達(dá)成99.999%可用性 ,消除因光鏈路級丟包導(dǎo)致的任務(wù)中斷。
3.高效現(xiàn)場可維護(hù)性 :
支持故障部件現(xiàn)場快速更換 ,保障超節(jié)點(diǎn)持續(xù)服務(wù)性。
ETH-X Ultra項(xiàng)目目標(biāo)
四、光互聯(lián)超節(jié)點(diǎn)光引擎技術(shù)需求與互通測試

光引擎總?cè)萘繛?.2T,由32個(gè)通道構(gòu)成,各通道可互相獨(dú)立工作,每通道速率可支持112Gbps,工作速率為106.25 Gbps。光引擎支持可插拔安裝,支持30 m互聯(lián)距離,鏈路最大損耗為3.0 dB(最大包含4個(gè)0.7 dB連接器損耗和0.2 dB光纖損耗)。
光引擎的測試分解為單體指標(biāo)測試和系統(tǒng)端到端測試兩部分。其中單體指標(biāo)測試用于單獨(dú)表征引擎性能;系統(tǒng)端到端測試用于評估完整鏈路性能。單體指標(biāo)測試涵蓋光參數(shù)和電參數(shù)兩大塊,表征參數(shù)和測試方法參考LPO MSA Revision 1.0的條款9、10和IEEE Std 802.3-2022中的相關(guān)定義。系統(tǒng)端到端測試重點(diǎn)驗(yàn)證完整鏈路的信號質(zhì)量,包括鏈路預(yù)算裕量、誤碼穩(wěn)定性和環(huán)境壓力性能,評估指標(biāo)主要使用BER和FEC分布。BER用于評估鏈路預(yù)算,參考IEEE Std 802.3-2022中的相關(guān)接收機(jī)和發(fā)射機(jī)指標(biāo)定義。誤碼穩(wěn)定性和環(huán)境壓力性能均以FEC分布作為參考,對于112G通道,當(dāng)鏈路預(yù)算裕量為0時(shí),F(xiàn)EC bin測試值不得超過5(165s 累積值)。
五、光互聯(lián)超節(jié)點(diǎn)可靠性方案分析
FEC 時(shí)延在靜態(tài)時(shí)延中占比 30%~50%,而優(yōu)化 FEC 時(shí)延會導(dǎo)致誤碼率升高。為了避免誤碼丟包對集群通信吞吐產(chǎn)生影響,光互聯(lián)的Post-FEC誤碼率應(yīng)處于可容忍范圍內(nèi)(<1E-15)。
當(dāng)鏈路中不可避免出現(xiàn)誤碼故障時(shí),鏈路端可以及時(shí)檢查出異常并通過鏈路級重傳能力實(shí)現(xiàn)誤碼數(shù)據(jù)重傳。然而,降低誤碼率和鏈路級重傳的方式并不能完全避免光互聯(lián)中產(chǎn)生的單點(diǎn)故障問題。譬如:
(一)單個(gè)通道污損故障需要通過通道動態(tài)容錯方式避免單點(diǎn)故障
(二)單個(gè)模塊激光器故障故障需要通過跨模塊LLR方式避免單點(diǎn)故障
六、光互聯(lián)超節(jié)點(diǎn)互聯(lián)成本分析
以NPO形態(tài)組成的光互聯(lián)超節(jié)點(diǎn)技術(shù)方案,全光鏈路主要部件如下圖所示:
OE鏈路部分相應(yīng)的成本構(gòu)成應(yīng)該包含所有光互聯(lián)的器件部分,總體成本目標(biāo)首先應(yīng)用拆解到各組成部分成本目標(biāo):
全光超節(jié)點(diǎn)主要包含以下幾種互聯(lián)方式,在以上光互聯(lián)組件構(gòu)成下,光互聯(lián)成本分析結(jié)論及目標(biāo)參考如下表所示,短距可采用多模NPO方案,成本可實(shí)現(xiàn)低于0.1$/G, 單模硅光NPO方案目標(biāo)實(shí)現(xiàn)0.12$/G。
七、ETH-X Ultra項(xiàng)目構(gòu)成與樣機(jī)計(jì)劃
ETH-X Ultra項(xiàng)目于2025年7月在ODCC夏季全會網(wǎng)絡(luò)工作組啟動后,與眾多GPU芯片廠家、交換芯片廠家、OE光引擎廠家、模塊廠家、整機(jī)系統(tǒng)廠家開展了深入交流,確定了項(xiàng)目技術(shù)規(guī)范與系統(tǒng)樣機(jī)時(shí)間表。項(xiàng)目技術(shù)規(guī)范包括:《光互聯(lián)硬件設(shè)計(jì)規(guī)范》、《光引擎(OE)技術(shù)規(guī)范》、《互通測試技術(shù)規(guī)范》、《光互聯(lián)系統(tǒng)可靠性方案規(guī)范》。
ETH-X Ultra項(xiàng)目計(jì)劃在未來一年左右的時(shí)間內(nèi)聯(lián)合行業(yè)合作伙伴完成相關(guān)技術(shù)規(guī)范及驗(yàn)證樣機(jī)研發(fā)測試,樣機(jī)計(jì)劃如下:
聯(lián)系方式:
騰訊 夏老師 forestxia@tencent.com;信通院 王老師 wangshaopeng@caict.ac.cn;信通院 孫老師 suncong@caict.ac.cn
新聞來源:訊石光通訊網(wǎng)
相關(guān)文章