一、MOE模型需要更大規(guī)模超節(jié)點系統(tǒng)
混合專家模型(Mixture of Experts, MoE)憑借創(chuàng)新設計,巧妙破解了模型規(guī)模、計算效率與推理性能三者間的調和難題,已成為當前大語言模型(Large Language Model, LLM)領域的主流架構,為大模型技術突破提供關鍵支撐。與此同時,MoE 模型的專家數(shù)量正呈現(xiàn)顯著增長趨勢。更多的專家數(shù)量不僅能直接提升模型容量、優(yōu)化計算效率,還能進一步推動各專家在特定任務領域的專業(yè)化演進,從而持續(xù)增強模型整體能力與適配性。
隨著MOE模型專家數(shù)量的增長,若要實現(xiàn)更優(yōu)的推理響應性能(TTFT/TPOT),需部署更多 GPU 以承載不同專(一般建議每卡專家數(shù)1-2個)構建大EP(Expert Parallelism)部署架構。然而,EP 規(guī)模的擴大將直接導致通信占比顯著提升,進而成為制約推理響應時延的核心因素。在此背景下,超節(jié)點憑借其大帶寬、低時延的 GPU 卡間互聯(lián)能力,有效降低 MOE 模型大 EP 部署中的通信開銷,為性能優(yōu)化提供關鍵支撐。相應地,超節(jié)點的規(guī)模需與MOE模型的大 EP 部署需求相匹配,才能充分發(fā)揮其技術優(yōu)勢。圖1給出了當前典型MOE模型專家數(shù)量以及推薦超節(jié)點規(guī)模。
典型MOE模型專家數(shù)量與超節(jié)點規(guī)模
二、大規(guī)模超節(jié)點系統(tǒng)的技術路線與挑戰(zhàn)
當前實現(xiàn)大規(guī)模超節(jié)點的技術路線主要有三種:全銅纜互聯(lián)、銅光混合互聯(lián)和全光互聯(lián)。不同方案在部署規(guī)模、時延、成本及工程可行性上存在顯著差異:
全銅纜互聯(lián)僅適用于單柜或相鄰雙柜部署,其物理距離限制(≤3m)與單柜內高密度GPU引發(fā)的供電、散熱及線纜密度、機房承重等問題,導致工程擴展性和可維護性的巨大挑戰(zhàn)。
銅光混合互聯(lián)雖支持多柜擴展,但依賴“柜內銅纜+柜間光互聯(lián)”兩級交換架構,引入更高時延與更加復雜的scale up協(xié)議能力要求,并且兩層交換機顯著增加系統(tǒng)成本。
全光互聯(lián)通過每GPU直連光接口與一層HighRadix交換機互聯(lián),當前HighRadix交換機可支持512端口200Gbps,可實現(xiàn)一層交換機512卡超節(jié)點。全光互聯(lián)可以實現(xiàn)較低時延和靈活的部署規(guī)模;其核心挑戰(zhàn)在于光器件成本與可靠性,因此要實現(xiàn)大規(guī)模全光互聯(lián)超節(jié)點仍需針對這些問題完成技術與產(chǎn)業(yè)突破。
一層交換全光互聯(lián)超節(jié)點
三、ETH-X Ultra全光互聯(lián)超節(jié)點目標
ODCC網(wǎng)絡工作組啟動的ETH-X Ultra項目旨在面向大規(guī)模超節(jié)點系統(tǒng),聯(lián)合產(chǎn)業(yè)合作伙伴共同探索全光互聯(lián)超節(jié)點相關技術與解決方案。針對全光互聯(lián)超節(jié)點面臨的成本、可靠性、可維護性挑戰(zhàn)設定以下三大目標:
1. 極致成本控制 :
實現(xiàn)系統(tǒng)連接成本 ≤0.2$/Gbps (較傳統(tǒng)方案降低60%+),通過光器件標準化與高密度設計壓縮傳輸成本。
2.超高可靠性保障 :
超節(jié)點互聯(lián)鏈路達成99.999%可用性 ,消除因光鏈路級丟包導致的任務中斷。
3.高效現(xiàn)場可維護性 :
支持故障部件現(xiàn)場快速更換 ,保障超節(jié)點持續(xù)服務性。
ETH-X Ultra項目目標
四、光互聯(lián)超節(jié)點光引擎技術需求與互通測試

光引擎總容量為3.2T,由32個通道構成,各通道可互相獨立工作,每通道速率可支持112Gbps,工作速率為106.25 Gbps。光引擎支持可插拔安裝,支持30 m互聯(lián)距離,鏈路最大損耗為3.0 dB(最大包含4個0.7 dB連接器損耗和0.2 dB光纖損耗)。
光引擎的測試分解為單體指標測試和系統(tǒng)端到端測試兩部分。其中單體指標測試用于單獨表征引擎性能;系統(tǒng)端到端測試用于評估完整鏈路性能。單體指標測試涵蓋光參數(shù)和電參數(shù)兩大塊,表征參數(shù)和測試方法參考LPO MSA Revision 1.0的條款9、10和IEEE Std 802.3-2022中的相關定義。系統(tǒng)端到端測試重點驗證完整鏈路的信號質量,包括鏈路預算裕量、誤碼穩(wěn)定性和環(huán)境壓力性能,評估指標主要使用BER和FEC分布。BER用于評估鏈路預算,參考IEEE Std 802.3-2022中的相關接收機和發(fā)射機指標定義。誤碼穩(wěn)定性和環(huán)境壓力性能均以FEC分布作為參考,對于112G通道,當鏈路預算裕量為0時,F(xiàn)EC bin測試值不得超過5(165s 累積值)。
五、光互聯(lián)超節(jié)點可靠性方案分析
FEC 時延在靜態(tài)時延中占比 30%~50%,而優(yōu)化 FEC 時延會導致誤碼率升高。為了避免誤碼丟包對集群通信吞吐產(chǎn)生影響,光互聯(lián)的Post-FEC誤碼率應處于可容忍范圍內(<1E-15)。
當鏈路中不可避免出現(xiàn)誤碼故障時,鏈路端可以及時檢查出異常并通過鏈路級重傳能力實現(xiàn)誤碼數(shù)據(jù)重傳。然而,降低誤碼率和鏈路級重傳的方式并不能完全避免光互聯(lián)中產(chǎn)生的單點故障問題。譬如:
(一)單個通道污損故障需要通過通道動態(tài)容錯方式避免單點故障
(二)單個模塊激光器故障故障需要通過跨模塊LLR方式避免單點故障
六、光互聯(lián)超節(jié)點互聯(lián)成本分析
以NPO形態(tài)組成的光互聯(lián)超節(jié)點技術方案,全光鏈路主要部件如下圖所示:
OE鏈路部分相應的成本構成應該包含所有光互聯(lián)的器件部分,總體成本目標首先應用拆解到各組成部分成本目標:
全光超節(jié)點主要包含以下幾種互聯(lián)方式,在以上光互聯(lián)組件構成下,光互聯(lián)成本分析結論及目標參考如下表所示,短距可采用多模NPO方案,成本可實現(xiàn)低于0.1$/G, 單模硅光NPO方案目標實現(xiàn)0.12$/G。
七、ETH-X Ultra項目構成與樣機計劃
ETH-X Ultra項目于2025年7月在ODCC夏季全會網(wǎng)絡工作組啟動后,與眾多GPU芯片廠家、交換芯片廠家、OE光引擎廠家、模塊廠家、整機系統(tǒng)廠家開展了深入交流,確定了項目技術規(guī)范與系統(tǒng)樣機時間表。項目技術規(guī)范包括:《光互聯(lián)硬件設計規(guī)范》、《光引擎(OE)技術規(guī)范》、《互通測試技術規(guī)范》、《光互聯(lián)系統(tǒng)可靠性方案規(guī)范》。
ETH-X Ultra項目計劃在未來一年左右的時間內聯(lián)合行業(yè)合作伙伴完成相關技術規(guī)范及驗證樣機研發(fā)測試,樣機計劃如下:
聯(lián)系方式:
騰訊 夏老師 forestxia@tencent.com;信通院 王老師 wangshaopeng@caict.ac.cn;信通院 孫老師 suncong@caict.ac.cn