引 言
近年來(lái)各種GPU和TPU/NPU/XPU/ASIC等算力芯片都需要組成大規(guī)模的高帶寬域,即超節(jié)點(diǎn)來(lái)應(yīng)對(duì)大模型應(yīng)用的需求,特別是GPU scale-up網(wǎng)絡(luò)需要大節(jié)點(diǎn)數(shù)、高帶寬、低延遲、低成本這四個(gè)互相牽制的要求,目前各種互聯(lián)技術(shù)都難以同時(shí)滿足,在摩爾定理變緩的當(dāng)下這已成為業(yè)內(nèi)難題。
1、以太網(wǎng)超節(jié)點(diǎn)
以太網(wǎng)交換是目前最成熟、應(yīng)用范圍最廣的一種網(wǎng)絡(luò)互聯(lián)技術(shù),用以太交換組成算力芯片超節(jié)點(diǎn)的技術(shù)路線具有技術(shù)成熟,易于引入成熟的以太光模塊實(shí)現(xiàn)柜間光互聯(lián),突破電互聯(lián)的單柜限制,降低對(duì)單柜供電散熱的要求,小芯片即可組成大網(wǎng)絡(luò)等優(yōu)點(diǎn)[1]。見表1,博通也推出了SUE(Scale Up Ethernet)方案,并盡力降低標(biāo)準(zhǔn)以太網(wǎng)的延遲[2],這兩種互聯(lián)方案分別針對(duì)NPU/XPU等算力芯片,對(duì)于網(wǎng)絡(luò)性能要求更高的GPU傾向于采用其它更低延遲的技術(shù)方案。
表1、 幾種算力芯片超節(jié)點(diǎn)內(nèi)互聯(lián)技術(shù)的比較
目前,所謂的光交換實(shí)際上只能完成物理層的工作,因?yàn)楣鉀]有SRAM和純光邏輯器件,不可能在光域獨(dú)立完成完整的包交換,各種光交換技術(shù)必須由電交換芯片配合,兩者不是替代關(guān)系,光交換只能在網(wǎng)絡(luò)頂層,即兩層網(wǎng)絡(luò)的Spine層,或三層網(wǎng)絡(luò)的S-Spine層,Leaf層(和三層網(wǎng)絡(luò)的Spine層)必須交由電交換完成。Spine層無(wú)交換全互聯(lián)(Full-Mesh)的方案也類似,只能位于網(wǎng)絡(luò)頂層(如果位于Leaf層那就等于是無(wú)交換),為了超低延遲犧牲端口效率,用N-1倍Spine層路由實(shí)現(xiàn)全互聯(lián),作為代價(jià)超高的通道數(shù)帶來(lái)的pJ/bit、$/G、通道密度Gbps/mm飆升和可靠性等問題,就需要各種光傳輸技術(shù)不斷創(chuàng)新打破瓶頸。
圖1、以太交換組成384卡NPU超節(jié)點(diǎn)
2、NVLink互聯(lián)
NVLink交換機(jī)以其低延遲、大通道數(shù)、高帶寬(通道數(shù)乘以單通道速率)成為GPU互聯(lián)的領(lǐng)先技術(shù)方案,NVSwitch5.0單通道速率達(dá)到200Gbps,單芯片單向帶寬達(dá)到72*2*200G=28.8Tbps=3600GBps,問題是NVSwitch5.0~7.0單向帶寬都是3600GBps,考慮到下一代GPU Rubin的I/O帶寬達(dá)單向1.8TBps=18*4*200Gbps,造成NVSwitch7.0的端口數(shù)從前兩代的72反而降低到3.6TBps*8/(4*200Gbps)=36,可見單層交換網(wǎng)絡(luò)已觸及網(wǎng)絡(luò)規(guī)模的天花板,難以繼續(xù)滿足大模型對(duì)硬件規(guī)模指數(shù)增長(zhǎng)的要求。下一代GPU集群VR300 NVL576只能撿起NVLink4.0時(shí)代GH200和NVLink5.0時(shí)代GB200 NVL576放棄的兩層交換網(wǎng)絡(luò)來(lái)擴(kuò)大網(wǎng)絡(luò)節(jié)點(diǎn)數(shù),為了保證系統(tǒng)的可靠性、成本、總功耗、總成本等指標(biāo),放棄引入前兩代失敗的光互連,光退銅進(jìn),采用正交背板+銅纜的純電互聯(lián),兩層交換芯片的總帶寬達(dá)到恐怖的雙向(72+144)*3.6TBps*2=1.5PB!這還帶來(lái)一個(gè)更嚴(yán)重的問題:這個(gè)576卡的超大集群只能塞進(jìn)單柜中,單柜功耗將飆升至接近1000kW[4],這是在挑戰(zhàn)供電、散熱、運(yùn)維等工業(yè)極限,量產(chǎn)難度將遠(yuǎn)超成功的GB300 NVL72產(chǎn)品,那只有120kW單柜功耗,都遇到了各種工藝問題和延期。如圖2,這條技術(shù)路線可能具有更大的不確定性。
圖2、NVLink7.0組成576卡GPU超節(jié)點(diǎn)
圖3、 NVLink7.0組成576卡GPU超節(jié)點(diǎn)Plan B
為了降低單柜1000kW的工藝風(fēng)險(xiǎn),如圖3我們建議了Plan B的方案。引入800G Half-OSFP AEC替代Plan A中的4*200G無(wú)源電纜,這樣就可以把單柜分散到四柜,每柜功耗將只有原來(lái)的1/4,不到250kW,大幅降低的算力密度并不會(huì)影響系統(tǒng)指標(biāo),幾米線纜增加的數(shù)十納秒的飛行時(shí)間也不影響GPU的吞吐效率(Throughput),帶來(lái)的好處是極大降低了供電散熱的工藝難度。為了控制互聯(lián)的距離,還可以將四個(gè)柜子背對(duì)背十字星放置。本質(zhì)上這還是單柜,更寬更深還遵守機(jī)柜尺寸標(biāo)準(zhǔn)罷了。Spine層引入光互連才是趨勢(shì),針對(duì)數(shù)米以內(nèi)的傳輸,光(纖)的損耗可以忽略(相比26#電纜);延遲增加可以忽略(相比無(wú)FEC Retimer級(jí)聯(lián));成本可以忽略(相比M8 PCB走線),關(guān)鍵是可以從根本上突破電互聯(lián)的物理距離限制。而簡(jiǎn)單地把電纜換成光纜,超線性增長(zhǎng)的交換機(jī)和光模塊帶寬將使成本、延遲、功耗飆升,加之可靠性和運(yùn)維難題,經(jīng)兩代NVSwitch證明過,這并非經(jīng)濟(jì)而合理的技術(shù)路線。而CPO等技術(shù)路線即使能如預(yù)期將光傳輸部分的延遲、功耗、成本、可靠性大幅度改善,但是并沒有對(duì)交換和網(wǎng)絡(luò)架構(gòu)做改進(jìn),所以各種Spine層直接在光域完成的交換以其低延遲、低功耗、高帶寬和高端口數(shù)潛力[7]得到了業(yè)內(nèi)的重視。
3、PCIe交換機(jī)互聯(lián)
雖然還未引入光互連,NVLink仍然是目前在節(jié)點(diǎn)數(shù)、帶寬、延遲等方面最領(lǐng)先的GPU互聯(lián)協(xié)議,其它更多的GPU采用PCIe協(xié)議作為GPU的I/O接口。雖然具有延遲低,標(biāo)準(zhǔn)成熟,易于連接存儲(chǔ)芯片等優(yōu)點(diǎn),但是普遍認(rèn)為,PCIe單通道速率低(PCIe5.0只有32Gbps),交換芯片端口數(shù)少(每端口16通道,最大只有8~18端口),迭代緩慢(支持PCIe7.0的GPU尚未量產(chǎn))等問題限制了如AMD MI300為代表的PCIe接口的GPU互聯(lián)組成大節(jié)點(diǎn)數(shù)的超節(jié)點(diǎn)集群。即使引入PCIe交換機(jī),比GPU官方推薦的無(wú)交換超節(jié)點(diǎn)組網(wǎng)方式的節(jié)點(diǎn)數(shù)和網(wǎng)絡(luò)總帶寬等方面并沒有顯著的提升,公認(rèn)的這是致命的軟肋[5] [6]。
4、波長(zhǎng)路由光交換

圖4、16卡GPU和顯存池配合PCIe交換和波長(zhǎng)路由光交換網(wǎng)絡(luò)
為打破限制PCIe-GPU互聯(lián)的瓶頸,波長(zhǎng)路由光交換獲得重視[7] [8],特別是GPU和顯存池之間全帶寬低延遲多節(jié)點(diǎn)任意互聯(lián),打破存儲(chǔ)墻,成為GPU scale-up互聯(lián)的另外一種更為直接的技術(shù)路線。圖4是最小規(guī)模的波長(zhǎng)路由交換系統(tǒng),采用16顆AMD上一代GPU MI300,16節(jié)點(diǎn)HBM3顆粒組成顯存池,他們之間全帶寬任意互聯(lián)16pcs* 512GBps*8=65.536Tbps,由兩跳Leaf層PCIe交換芯片加一跳Spine層波長(zhǎng)路由光交換完成。完成波長(zhǎng)路由交換(4x4)的是陣列波導(dǎo)光柵路由選擇器AWGR,但是完成納秒級(jí)波長(zhǎng)切換的是4波光源,其控制信號(hào)(圖中ab)來(lái)自Leaf層交換芯片,所以從電域看來(lái),這根本不是光包交換OPS,和波導(dǎo)路由光交換一樣,本質(zhì)上都是控制面和數(shù)據(jù)面分離的光突發(fā)交換OBS[9],雖然一般認(rèn)為這是目前唯一可實(shí)現(xiàn)的光包交換OPS,因?yàn)閺墓庥蚩磥?lái),承載目標(biāo)地址的光標(biāo)記信息可以加載到光波長(zhǎng)上避免與數(shù)據(jù)面分離。
5、 波導(dǎo)路由光交換

圖5、256卡GPU配合兩層PCIe交換和波導(dǎo)路由光交換網(wǎng)絡(luò)
圖5還是采用和圖4一樣的AMD MI300 GPU和帶OBS控制輸出的128x128 PCIe5.0 Switch,雖然通道數(shù)達(dá)128,可是端口數(shù)只有8個(gè),一般認(rèn)為這限制了PCIe 交換網(wǎng)絡(luò)的可擴(kuò)展性,引入波長(zhǎng)路由光交換后的網(wǎng)絡(luò)可擴(kuò)展性也有限。但是引入了Spine層波導(dǎo)路由光交換就完全不一樣了,比圖4的網(wǎng)絡(luò)規(guī)模更大,供應(yīng)鏈更成熟。這個(gè)系統(tǒng)的關(guān)鍵指標(biāo)可以跨代碾壓成功的GB300 NVL72產(chǎn)品:2倍的總帶寬256*1024GBps=260TBps,2.4倍的顯存256*192GB=49TB,節(jié)點(diǎn)數(shù)更是高達(dá)256,還可以分散到多達(dá)16柜;柜間光互連使高單柜供電散熱難題消失;也沒必要采用1.6T/3.2T/CPO等高密度光電轉(zhuǎn)換,采用普通的成熟工藝光模塊性價(jià)比可能更高。
考慮到Spine層光交換矩陣需要Leaf交換芯片幫助完成擁塞排隊(duì)和多播等物理層以上的工作,其端口數(shù)必須小于電交換芯片上行端口數(shù)(或者三層網(wǎng)絡(luò)的兩層端口數(shù)乘積)。如果保持Leaf電àSpine電àS-Spine光三層網(wǎng)絡(luò)架構(gòu),更換略大些的192x192 PCIe5.0 Switch(端口數(shù)12=192/16)和32x32高速硅光交換矩陣,網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)將獲四次方提升,可實(shí)現(xiàn)6*6*32=1152卡超節(jié)點(diǎn),小芯片大網(wǎng)絡(luò),用4N工藝的GPU跨兩代碾壓圖2/3中3NP工藝GPU的VR300 NVL576,節(jié)點(diǎn)數(shù)翻8倍,總帶寬翻4.5倍,總顯存翻1.5倍,GPU DIE數(shù)量翻倍。所以說,PCIe5.0單通道速率只有NVLink7.0的1/7只是其可擴(kuò)展性差的借口而已,PCIe交換芯片端口數(shù)低也不是問題的關(guān)鍵。有了波導(dǎo)路由光交換可以利用光波分復(fù)用WDM把16路光復(fù)用到單個(gè)波導(dǎo)端口,每端口速率反而可能比其它技術(shù)都高(表1);翻8倍的節(jié)點(diǎn)數(shù)完全可以每節(jié)點(diǎn)只放一個(gè)GPU,沒有必要四顆GPU Die合封在一起共享一個(gè)節(jié)點(diǎn)的帶寬,可以將GPU的I/O端口帶寬充分發(fā)揮出來(lái);因?yàn)镾pine層光域交換可以減少一半光電轉(zhuǎn)換次數(shù),系統(tǒng)總延遲(四跳PCIe交換+延遲可忽略的一跳OBS)也接近(三跳NVSwitch7.0)。做個(gè)比喻:兵敗赤壁(scale-up)后曹操(NVLink)哀嘆“既生瑜(PCIe)何生亮(OBS)”。如果用更大端口數(shù)的PCIe交換芯片,再用單通道64Gbps的PCIe6.0替代PCIe5.0,更換帶寬更大的GPU,總帶寬還能翻倍甚至更多。
當(dāng)然理論上,PCIe電交換芯片也可以換成更強(qiáng)悍的36端口NVSwitch7.0組NVL1152(1152=18*16)超節(jié)點(diǎn),同為兩層網(wǎng)絡(luò)比純電交換的VR300 NVL576各方面都優(yōu)勢(shì)明顯。如果用三層交換網(wǎng)絡(luò),甚至可能實(shí)現(xiàn)18*18*256=82944節(jié)點(diǎn)數(shù)的超節(jié)點(diǎn),雖然平均每節(jié)點(diǎn)需要的交換芯片雙向帶寬略有增加(從1555.2/144=10.8TB增加到14.4TB),相應(yīng)地包括光纖飛行時(shí)間在內(nèi)的總延遲也略有增加(從三跳NVSwitch7.0增加到四跳+一跳延遲可忽略的OBS),平均每卡GPU網(wǎng)絡(luò)成本和功耗可能也略有增加,但是有限的代價(jià)有可能換來(lái)廣泛的好處:可以繼承光交換/光調(diào)度的各種優(yōu)點(diǎn);可能實(shí)現(xiàn)scale-up和scale-out兩網(wǎng)融合;可柔性升級(jí)適應(yīng)未來(lái)幾代GPU;考慮各方面因素優(yōu)化之后的系統(tǒng)方案性價(jià)比更高;顯然這是一條可持續(xù)演進(jìn)的技術(shù)路線。
無(wú)論光域是波長(zhǎng)路由還是波導(dǎo)路由,這個(gè)scale-up網(wǎng)絡(luò)的核心都是帶OBS控制輸出的電交換芯片,理論上該芯片是兼容的,差異僅僅在于擴(kuò)展的控制面信號(hào)位是去控制高速切換波長(zhǎng)進(jìn)而實(shí)現(xiàn)波長(zhǎng)路由,還是去控制波導(dǎo)路由。關(guān)鍵的技術(shù)難點(diǎn)(非工藝難題)都是信號(hào)切換后的高速時(shí)鐘恢復(fù),這可以通過共享全局鎖相環(huán)[8]或者所有Leaf交換機(jī)引入共享時(shí)間戳保證光開關(guān)切換前后的系統(tǒng)時(shí)鐘同步。具體物理層采用何種手段實(shí)現(xiàn)路由高速切換并不關(guān)鍵。理論上各種光交換技術(shù)對(duì)各種電互聯(lián)協(xié)議都是透明的,兼容的,生態(tài)友好。
6、無(wú)交換全互聯(lián)
無(wú)交換全互聯(lián)(Full-Mesh)的8卡MI300系列GPU之間互聯(lián)不用交換機(jī),雖然有極低的延遲、成本、功耗優(yōu)勢(shì),但是會(huì)導(dǎo)致寶貴的GPU的I/O端口(帶寬)單跳效率只有1/(N-1)=1/7,節(jié)點(diǎn)數(shù)N更是被限制在8以內(nèi)[6]。
圖6、16卡GPU配合無(wú)交換MRM的最小網(wǎng)絡(luò)方案
Leaf層有交換Spine層無(wú)交換全互聯(lián)就不一樣了,如圖6,下行有交換高效利用GPU的I/O 端口可做到全帶寬,上行端口數(shù)直接擴(kuò)大N-1=3倍,既可以保持Leaf層交換機(jī)上行的全帶寬互聯(lián),又可以消除Spine層交換芯片重復(fù)拆包封包造成沒必要的延遲,如果不引入光交換,自帶波分的MRM比EAM好處多,但是MRM的波長(zhǎng)窗口窄,難以支持波長(zhǎng)路由光交換是其缺點(diǎn)。至于上行的每端口多少通道,即每通道多高速率需要根據(jù)不同的光傳輸技術(shù)方案優(yōu)化確定,MRM可能32~200G/Lane還自帶光波分復(fù)用,VCSEL可能50G~200G /Lane,MicroLED可能1~4Gbps/Lane具有目前最低的0.2pJ/bit功耗[10]。作為代價(jià),這類無(wú)交換技術(shù)路線需要N-1倍的端口數(shù),通道數(shù)就更多了。要實(shí)用化除了必須進(jìn)一步降低pJ/bit、$/G,提高端口/通道密度Gbps/mm等關(guān)鍵指標(biāo)外,至少還面臨兩大難題:可靠性問題也許還可以通過冗余通道的預(yù)留得到部分解決(至少比純物理層光模塊的可靠性要求低很多);更麻煩的是每種光傳輸技術(shù)方案的通道速率差異太大了,交換芯片難以兼容優(yōu)化,生態(tài)不友好。
受功耗和通道密度等限制,無(wú)交換全互聯(lián)(Full-Mesh)方案的節(jié)點(diǎn)數(shù)一般被限制在16x以內(nèi),甚至8x以內(nèi),為了進(jìn)一步擴(kuò)大網(wǎng)絡(luò)規(guī)模,各種多方案融合的方案被廣泛研究,最簡(jiǎn)單的光電融合[11]就是引入光分路器降低發(fā)射光端口數(shù),同時(shí)引入APD彌補(bǔ)到接收端的總光鏈路損失;甚至還有同時(shí)引入波長(zhǎng)路由光交換的PULSE,只有8波長(zhǎng)完成8x8波長(zhǎng)路由光交換、配合1分8光分路器完成8節(jié)點(diǎn)無(wú)交換全互聯(lián),可以實(shí)現(xiàn)高達(dá)8*8*64=4096個(gè)節(jié)點(diǎn)的全帶寬GPU互聯(lián)[12]。根據(jù)有無(wú)引入光交換、有無(wú)引入光波分復(fù)用來(lái)主導(dǎo)(光交換/光傳輸)可以把目前主要的GPU超節(jié)點(diǎn)內(nèi)光互聯(lián)技術(shù)排列組合成四類,如表2所示,這四類技術(shù)路線再排列組合為解決GPU大帶寬、多節(jié)點(diǎn)、低延遲的超節(jié)點(diǎn)內(nèi)光互聯(lián)難題帶來(lái)了希望。
表2、 幾種GPU超節(jié)點(diǎn)內(nèi)光互聯(lián)技術(shù)的排列組合
5、結(jié)論
1) 以太超節(jié)點(diǎn)以其技術(shù)成熟,生態(tài)友好,擴(kuò)展能力強(qiáng)等特點(diǎn)逐漸成為NPU/XPU的優(yōu)選技術(shù)路線;
2) 雖然尚未引入光互連,NVLink仍然是目前在節(jié)點(diǎn)數(shù)、帶寬、延遲等方面最領(lǐng)先的GPU互聯(lián)技術(shù)。下一步是繼續(xù)提升單柜超節(jié)點(diǎn)功耗還是引入超節(jié)點(diǎn)內(nèi)光互連是業(yè)界關(guān)注的焦點(diǎn);
3) PCIe協(xié)議雖然具有延遲低,標(biāo)準(zhǔn)成熟,易于連接存儲(chǔ)芯片等優(yōu)點(diǎn),但是普遍認(rèn)為,單通道速率低,交換芯片端口數(shù)少,迭代緩慢等問題限制了其組成大節(jié)點(diǎn)數(shù)的GPU超節(jié)點(diǎn);
4) Spine層波長(zhǎng)路由光交換以其低延遲、低功耗、高通道速率和高端口數(shù)潛力得到了業(yè)內(nèi)的重視;
5) Spine層波導(dǎo)路由光交換與波長(zhǎng)路由技術(shù)方案可以做到Leaf層電交換芯片兼容,可以利用光WDM把多路光復(fù)用到單個(gè)光波導(dǎo)端口,單端口速率最高,工藝成熟,性價(jià)比高,是可持續(xù)演進(jìn)的技術(shù)路線;
6) Spine層無(wú)交換全互聯(lián)的端口數(shù)直接擴(kuò)大N-1倍,Leaf層有交換全互聯(lián),既可以充分發(fā)揮GPU的I/O帶寬,又可以消除Spine層交換芯片重復(fù)拆包封包造成的不可避免的延遲,也是值得關(guān)注的技術(shù)方向,各種技術(shù)路線的排列組合更是為解決GPU互聯(lián)難題帶來(lái)了希望。
參考文獻(xiàn):
1. https://semianalysis.com/2025/04/16/huawei-ai-cloudmatrix-384-chinas-answer-to-nvidia-gb200-nvl72/
2. https://investors.broadcom.com/news-releases/news-release-details/broadcom-ships-tomahawk-ultra-reimagining-ethernet-switch-hpc
3. Kurtis Bowman, Board Chair, UALink Consortium, UALink Deep Dive, 5-6AUGUST, 2025, Taipei Taiwan, OCP APAC Summit
4. https://semianalysis.com/2025/03/19/nvidia-gtc-2025-built-for-reasoning-vera-rubin-kyber-cpo-dynamo-inference-jensen-math-feynman/
5. https://docs.broadcom.com/doc/PEX89000-Managed-PCI-Express-5.0-Switches
6. https://semianalysis.com/2025/06/13/amd-advancing-ai-mi350x-and-mi400-ualoe72-mi500-ual256/
7. Hitesh Ballani etc., Sirius: A Flat Datacenter Network with Nanosecond Optical Switching, Microsoft Research, SIGCOMM ’20, August 10–14, 2020, Virtual Event, USA
8. P. Mishra etc., A 3D-integrated 56 Gb/s Silicon Photonic Transceiver with 5nm CMOS Electronics for Optical Compute Interconnects JFS1-4, 2025 JSAP 2025 Symposium on VLSI Technology and Circuits Digest of Technical Papers
9. 黃水清.用于光突發(fā)交換的光模塊[J]. 光通信研究,2024(5): 240031.
10. Chris Pfistner, Paradigm Shift in AI Clusters using microLED based Interconnects, LightCounting Webinar - July 2025
11. Shai Cohen, Nvidia, A Roadmap Toward Sub 1pJ/b Optical Interconnect, TuG4.1 2025 IEEE Photonics Society Summer Topicals Meeting Series(SUM)
12. Benjamin JL, Gerard T, Lavery D, et al (2020) PULSE: Optical Circuit Switched Data Center Architecture Operating at Nanosecond Timescales. J Lightwave Technol 38(18):4906–4921. URL http://jlt.osa.org/abstract.cfm?URI=jlt-38-18-4906
關(guān)鍵字:光突發(fā)交換OBS,光包交換OPS, 波長(zhǎng)路由光交換,波導(dǎo)路由光交換,F(xiàn)ull-Mesh無(wú)交換全互聯(lián),MicroLED
作者:黃水清 Credo默升科技;鄒俊博士 舜宇創(chuàng)新研究院