引 言
近年來各種GPU和TPU/NPU/XPU/ASIC等算力芯片都需要組成大規(guī)模的高帶寬域,即超節(jié)點來應(yīng)對大模型應(yīng)用的需求,特別是GPU scale-up網(wǎng)絡(luò)需要大節(jié)點數(shù)、高帶寬、低延遲、低成本這四個互相牽制的要求,目前各種互聯(lián)技術(shù)都難以同時滿足,在摩爾定理變緩的當(dāng)下這已成為業(yè)內(nèi)難題。
1、以太網(wǎng)超節(jié)點
以太網(wǎng)交換是目前最成熟、應(yīng)用范圍最廣的一種網(wǎng)絡(luò)互聯(lián)技術(shù),用以太交換組成算力芯片超節(jié)點的技術(shù)路線具有技術(shù)成熟,易于引入成熟的以太光模塊實現(xiàn)柜間光互聯(lián),突破電互聯(lián)的單柜限制,降低對單柜供電散熱的要求,小芯片即可組成大網(wǎng)絡(luò)等優(yōu)點[1]。見表1,博通也推出了SUE(Scale Up Ethernet)方案,并盡力降低標(biāo)準(zhǔn)以太網(wǎng)的延遲[2],這兩種互聯(lián)方案分別針對NPU/XPU等算力芯片,對于網(wǎng)絡(luò)性能要求更高的GPU傾向于采用其它更低延遲的技術(shù)方案。
表1、 幾種算力芯片超節(jié)點內(nèi)互聯(lián)技術(shù)的比較
目前,所謂的光交換實際上只能完成物理層的工作,因為光沒有SRAM和純光邏輯器件,不可能在光域獨立完成完整的包交換,各種光交換技術(shù)必須由電交換芯片配合,兩者不是替代關(guān)系,光交換只能在網(wǎng)絡(luò)頂層,即兩層網(wǎng)絡(luò)的Spine層,或三層網(wǎng)絡(luò)的S-Spine層,Leaf層(和三層網(wǎng)絡(luò)的Spine層)必須交由電交換完成。Spine層無交換全互聯(lián)(Full-Mesh)的方案也類似,只能位于網(wǎng)絡(luò)頂層(如果位于Leaf層那就等于是無交換),為了超低延遲犧牲端口效率,用N-1倍Spine層路由實現(xiàn)全互聯(lián),作為代價超高的通道數(shù)帶來的pJ/bit、$/G、通道密度Gbps/mm飆升和可靠性等問題,就需要各種光傳輸技術(shù)不斷創(chuàng)新打破瓶頸。
圖1、以太交換組成384卡NPU超節(jié)點
2、NVLink互聯(lián)
NVLink交換機以其低延遲、大通道數(shù)、高帶寬(通道數(shù)乘以單通道速率)成為GPU互聯(lián)的領(lǐng)先技術(shù)方案,NVSwitch5.0單通道速率達到200Gbps,單芯片單向帶寬達到72*2*200G=28.8Tbps=3600GBps,問題是NVSwitch5.0~7.0單向帶寬都是3600GBps,考慮到下一代GPU Rubin的I/O帶寬達單向1.8TBps=18*4*200Gbps,造成NVSwitch7.0的端口數(shù)從前兩代的72反而降低到3.6TBps*8/(4*200Gbps)=36,可見單層交換網(wǎng)絡(luò)已觸及網(wǎng)絡(luò)規(guī)模的天花板,難以繼續(xù)滿足大模型對硬件規(guī)模指數(shù)增長的要求。下一代GPU集群VR300 NVL576只能撿起NVLink4.0時代GH200和NVLink5.0時代GB200 NVL576放棄的兩層交換網(wǎng)絡(luò)來擴大網(wǎng)絡(luò)節(jié)點數(shù),為了保證系統(tǒng)的可靠性、成本、總功耗、總成本等指標(biāo),放棄引入前兩代失敗的光互連,光退銅進,采用正交背板+銅纜的純電互聯(lián),兩層交換芯片的總帶寬達到恐怖的雙向(72+144)*3.6TBps*2=1.5PB!這還帶來一個更嚴(yán)重的問題:這個576卡的超大集群只能塞進單柜中,單柜功耗將飆升至接近1000kW[4],這是在挑戰(zhàn)供電、散熱、運維等工業(yè)極限,量產(chǎn)難度將遠(yuǎn)超成功的GB300 NVL72產(chǎn)品,那只有120kW單柜功耗,都遇到了各種工藝問題和延期。如圖2,這條技術(shù)路線可能具有更大的不確定性。
圖2、NVLink7.0組成576卡GPU超節(jié)點
圖3、 NVLink7.0組成576卡GPU超節(jié)點Plan B
為了降低單柜1000kW的工藝風(fēng)險,如圖3我們建議了Plan B的方案。引入800G Half-OSFP AEC替代Plan A中的4*200G無源電纜,這樣就可以把單柜分散到四柜,每柜功耗將只有原來的1/4,不到250kW,大幅降低的算力密度并不會影響系統(tǒng)指標(biāo),幾米線纜增加的數(shù)十納秒的飛行時間也不影響GPU的吞吐效率(Throughput),帶來的好處是極大降低了供電散熱的工藝難度。為了控制互聯(lián)的距離,還可以將四個柜子背對背十字星放置。本質(zhì)上這還是單柜,更寬更深還遵守機柜尺寸標(biāo)準(zhǔn)罷了。Spine層引入光互連才是趨勢,針對數(shù)米以內(nèi)的傳輸,光(纖)的損耗可以忽略(相比26#電纜);延遲增加可以忽略(相比無FEC Retimer級聯(lián));成本可以忽略(相比M8 PCB走線),關(guān)鍵是可以從根本上突破電互聯(lián)的物理距離限制。而簡單地把電纜換成光纜,超線性增長的交換機和光模塊帶寬將使成本、延遲、功耗飆升,加之可靠性和運維難題,經(jīng)兩代NVSwitch證明過,這并非經(jīng)濟而合理的技術(shù)路線。而CPO等技術(shù)路線即使能如預(yù)期將光傳輸部分的延遲、功耗、成本、可靠性大幅度改善,但是并沒有對交換和網(wǎng)絡(luò)架構(gòu)做改進,所以各種Spine層直接在光域完成的交換以其低延遲、低功耗、高帶寬和高端口數(shù)潛力[7]得到了業(yè)內(nèi)的重視。
3、PCIe交換機互聯(lián)
雖然還未引入光互連,NVLink仍然是目前在節(jié)點數(shù)、帶寬、延遲等方面最領(lǐng)先的GPU互聯(lián)協(xié)議,其它更多的GPU采用PCIe協(xié)議作為GPU的I/O接口。雖然具有延遲低,標(biāo)準(zhǔn)成熟,易于連接存儲芯片等優(yōu)點,但是普遍認(rèn)為,PCIe單通道速率低(PCIe5.0只有32Gbps),交換芯片端口數(shù)少(每端口16通道,最大只有8~18端口),迭代緩慢(支持PCIe7.0的GPU尚未量產(chǎn))等問題限制了如AMD MI300為代表的PCIe接口的GPU互聯(lián)組成大節(jié)點數(shù)的超節(jié)點集群。即使引入PCIe交換機,比GPU官方推薦的無交換超節(jié)點組網(wǎng)方式的節(jié)點數(shù)和網(wǎng)絡(luò)總帶寬等方面并沒有顯著的提升,公認(rèn)的這是致命的軟肋[5] [6]。
4、波長路由光交換

圖4、16卡GPU和顯存池配合PCIe交換和波長路由光交換網(wǎng)絡(luò)
為打破限制PCIe-GPU互聯(lián)的瓶頸,波長路由光交換獲得重視[7] [8],特別是GPU和顯存池之間全帶寬低延遲多節(jié)點任意互聯(lián),打破存儲墻,成為GPU scale-up互聯(lián)的另外一種更為直接的技術(shù)路線。圖4是最小規(guī)模的波長路由交換系統(tǒng),采用16顆AMD上一代GPU MI300,16節(jié)點HBM3顆粒組成顯存池,他們之間全帶寬任意互聯(lián)16pcs* 512GBps*8=65.536Tbps,由兩跳Leaf層PCIe交換芯片加一跳Spine層波長路由光交換完成。完成波長路由交換(4x4)的是陣列波導(dǎo)光柵路由選擇器AWGR,但是完成納秒級波長切換的是4波光源,其控制信號(圖中ab)來自Leaf層交換芯片,所以從電域看來,這根本不是光包交換OPS,和波導(dǎo)路由光交換一樣,本質(zhì)上都是控制面和數(shù)據(jù)面分離的光突發(fā)交換OBS[9],雖然一般認(rèn)為這是目前唯一可實現(xiàn)的光包交換OPS,因為從光域看來,承載目標(biāo)地址的光標(biāo)記信息可以加載到光波長上避免與數(shù)據(jù)面分離。
5、 波導(dǎo)路由光交換

圖5、256卡GPU配合兩層PCIe交換和波導(dǎo)路由光交換網(wǎng)絡(luò)
圖5還是采用和圖4一樣的AMD MI300 GPU和帶OBS控制輸出的128x128 PCIe5.0 Switch,雖然通道數(shù)達128,可是端口數(shù)只有8個,一般認(rèn)為這限制了PCIe 交換網(wǎng)絡(luò)的可擴展性,引入波長路由光交換后的網(wǎng)絡(luò)可擴展性也有限。但是引入了Spine層波導(dǎo)路由光交換就完全不一樣了,比圖4的網(wǎng)絡(luò)規(guī)模更大,供應(yīng)鏈更成熟。這個系統(tǒng)的關(guān)鍵指標(biāo)可以跨代碾壓成功的GB300 NVL72產(chǎn)品:2倍的總帶寬256*1024GBps=260TBps,2.4倍的顯存256*192GB=49TB,節(jié)點數(shù)更是高達256,還可以分散到多達16柜;柜間光互連使高單柜供電散熱難題消失;也沒必要采用1.6T/3.2T/CPO等高密度光電轉(zhuǎn)換,采用普通的成熟工藝光模塊性價比可能更高。
考慮到Spine層光交換矩陣需要Leaf交換芯片幫助完成擁塞排隊和多播等物理層以上的工作,其端口數(shù)必須小于電交換芯片上行端口數(shù)(或者三層網(wǎng)絡(luò)的兩層端口數(shù)乘積)。如果保持Leaf電àSpine電àS-Spine光三層網(wǎng)絡(luò)架構(gòu),更換略大些的192x192 PCIe5.0 Switch(端口數(shù)12=192/16)和32x32高速硅光交換矩陣,網(wǎng)絡(luò)節(jié)點數(shù)將獲四次方提升,可實現(xiàn)6*6*32=1152卡超節(jié)點,小芯片大網(wǎng)絡(luò),用4N工藝的GPU跨兩代碾壓圖2/3中3NP工藝GPU的VR300 NVL576,節(jié)點數(shù)翻8倍,總帶寬翻4.5倍,總顯存翻1.5倍,GPU DIE數(shù)量翻倍。所以說,PCIe5.0單通道速率只有NVLink7.0的1/7只是其可擴展性差的借口而已,PCIe交換芯片端口數(shù)低也不是問題的關(guān)鍵。有了波導(dǎo)路由光交換可以利用光波分復(fù)用WDM把16路光復(fù)用到單個波導(dǎo)端口,每端口速率反而可能比其它技術(shù)都高(表1);翻8倍的節(jié)點數(shù)完全可以每節(jié)點只放一個GPU,沒有必要四顆GPU Die合封在一起共享一個節(jié)點的帶寬,可以將GPU的I/O端口帶寬充分發(fā)揮出來;因為Spine層光域交換可以減少一半光電轉(zhuǎn)換次數(shù),系統(tǒng)總延遲(四跳PCIe交換+延遲可忽略的一跳OBS)也接近(三跳NVSwitch7.0)。做個比喻:兵敗赤壁(scale-up)后曹操(NVLink)哀嘆“既生瑜(PCIe)何生亮(OBS)”。如果用更大端口數(shù)的PCIe交換芯片,再用單通道64Gbps的PCIe6.0替代PCIe5.0,更換帶寬更大的GPU,總帶寬還能翻倍甚至更多。
當(dāng)然理論上,PCIe電交換芯片也可以換成更強悍的36端口NVSwitch7.0組NVL1152(1152=18*16)超節(jié)點,同為兩層網(wǎng)絡(luò)比純電交換的VR300 NVL576各方面都優(yōu)勢明顯。如果用三層交換網(wǎng)絡(luò),甚至可能實現(xiàn)18*18*256=82944節(jié)點數(shù)的超節(jié)點,雖然平均每節(jié)點需要的交換芯片雙向帶寬略有增加(從1555.2/144=10.8TB增加到14.4TB),相應(yīng)地包括光纖飛行時間在內(nèi)的總延遲也略有增加(從三跳NVSwitch7.0增加到四跳+一跳延遲可忽略的OBS),平均每卡GPU網(wǎng)絡(luò)成本和功耗可能也略有增加,但是有限的代價有可能換來廣泛的好處:可以繼承光交換/光調(diào)度的各種優(yōu)點;可能實現(xiàn)scale-up和scale-out兩網(wǎng)融合;可柔性升級適應(yīng)未來幾代GPU;考慮各方面因素優(yōu)化之后的系統(tǒng)方案性價比更高;顯然這是一條可持續(xù)演進的技術(shù)路線。
無論光域是波長路由還是波導(dǎo)路由,這個scale-up網(wǎng)絡(luò)的核心都是帶OBS控制輸出的電交換芯片,理論上該芯片是兼容的,差異僅僅在于擴展的控制面信號位是去控制高速切換波長進而實現(xiàn)波長路由,還是去控制波導(dǎo)路由。關(guān)鍵的技術(shù)難點(非工藝難題)都是信號切換后的高速時鐘恢復(fù),這可以通過共享全局鎖相環(huán)[8]或者所有Leaf交換機引入共享時間戳保證光開關(guān)切換前后的系統(tǒng)時鐘同步。具體物理層采用何種手段實現(xiàn)路由高速切換并不關(guān)鍵。理論上各種光交換技術(shù)對各種電互聯(lián)協(xié)議都是透明的,兼容的,生態(tài)友好。
6、無交換全互聯(lián)
無交換全互聯(lián)(Full-Mesh)的8卡MI300系列GPU之間互聯(lián)不用交換機,雖然有極低的延遲、成本、功耗優(yōu)勢,但是會導(dǎo)致寶貴的GPU的I/O端口(帶寬)單跳效率只有1/(N-1)=1/7,節(jié)點數(shù)N更是被限制在8以內(nèi)[6]。
圖6、16卡GPU配合無交換MRM的最小網(wǎng)絡(luò)方案
Leaf層有交換Spine層無交換全互聯(lián)就不一樣了,如圖6,下行有交換高效利用GPU的I/O 端口可做到全帶寬,上行端口數(shù)直接擴大N-1=3倍,既可以保持Leaf層交換機上行的全帶寬互聯(lián),又可以消除Spine層交換芯片重復(fù)拆包封包造成沒必要的延遲,如果不引入光交換,自帶波分的MRM比EAM好處多,但是MRM的波長窗口窄,難以支持波長路由光交換是其缺點。至于上行的每端口多少通道,即每通道多高速率需要根據(jù)不同的光傳輸技術(shù)方案優(yōu)化確定,MRM可能32~200G/Lane還自帶光波分復(fù)用,VCSEL可能50G~200G /Lane,MicroLED可能1~4Gbps/Lane具有目前最低的0.2pJ/bit功耗[10]。作為代價,這類無交換技術(shù)路線需要N-1倍的端口數(shù),通道數(shù)就更多了。要實用化除了必須進一步降低pJ/bit、$/G,提高端口/通道密度Gbps/mm等關(guān)鍵指標(biāo)外,至少還面臨兩大難題:可靠性問題也許還可以通過冗余通道的預(yù)留得到部分解決(至少比純物理層光模塊的可靠性要求低很多);更麻煩的是每種光傳輸技術(shù)方案的通道速率差異太大了,交換芯片難以兼容優(yōu)化,生態(tài)不友好。
受功耗和通道密度等限制,無交換全互聯(lián)(Full-Mesh)方案的節(jié)點數(shù)一般被限制在16x以內(nèi),甚至8x以內(nèi),為了進一步擴大網(wǎng)絡(luò)規(guī)模,各種多方案融合的方案被廣泛研究,最簡單的光電融合[11]就是引入光分路器降低發(fā)射光端口數(shù),同時引入APD彌補到接收端的總光鏈路損失;甚至還有同時引入波長路由光交換的PULSE,只有8波長完成8x8波長路由光交換、配合1分8光分路器完成8節(jié)點無交換全互聯(lián),可以實現(xiàn)高達8*8*64=4096個節(jié)點的全帶寬GPU互聯(lián)[12]。根據(jù)有無引入光交換、有無引入光波分復(fù)用來主導(dǎo)(光交換/光傳輸)可以把目前主要的GPU超節(jié)點內(nèi)光互聯(lián)技術(shù)排列組合成四類,如表2所示,這四類技術(shù)路線再排列組合為解決GPU大帶寬、多節(jié)點、低延遲的超節(jié)點內(nèi)光互聯(lián)難題帶來了希望。
表2、 幾種GPU超節(jié)點內(nèi)光互聯(lián)技術(shù)的排列組合
5、結(jié)論
1) 以太超節(jié)點以其技術(shù)成熟,生態(tài)友好,擴展能力強等特點逐漸成為NPU/XPU的優(yōu)選技術(shù)路線;
2) 雖然尚未引入光互連,NVLink仍然是目前在節(jié)點數(shù)、帶寬、延遲等方面最領(lǐng)先的GPU互聯(lián)技術(shù)。下一步是繼續(xù)提升單柜超節(jié)點功耗還是引入超節(jié)點內(nèi)光互連是業(yè)界關(guān)注的焦點;
3) PCIe協(xié)議雖然具有延遲低,標(biāo)準(zhǔn)成熟,易于連接存儲芯片等優(yōu)點,但是普遍認(rèn)為,單通道速率低,交換芯片端口數(shù)少,迭代緩慢等問題限制了其組成大節(jié)點數(shù)的GPU超節(jié)點;
4) Spine層波長路由光交換以其低延遲、低功耗、高通道速率和高端口數(shù)潛力得到了業(yè)內(nèi)的重視;
5) Spine層波導(dǎo)路由光交換與波長路由技術(shù)方案可以做到Leaf層電交換芯片兼容,可以利用光WDM把多路光復(fù)用到單個光波導(dǎo)端口,單端口速率最高,工藝成熟,性價比高,是可持續(xù)演進的技術(shù)路線;
6) Spine層無交換全互聯(lián)的端口數(shù)直接擴大N-1倍,Leaf層有交換全互聯(lián),既可以充分發(fā)揮GPU的I/O帶寬,又可以消除Spine層交換芯片重復(fù)拆包封包造成的不可避免的延遲,也是值得關(guān)注的技術(shù)方向,各種技術(shù)路線的排列組合更是為解決GPU互聯(lián)難題帶來了希望。
參考文獻:
1. https://semianalysis.com/2025/04/16/huawei-ai-cloudmatrix-384-chinas-answer-to-nvidia-gb200-nvl72/
2. https://investors.broadcom.com/news-releases/news-release-details/broadcom-ships-tomahawk-ultra-reimagining-ethernet-switch-hpc
3. Kurtis Bowman, Board Chair, UALink Consortium, UALink Deep Dive, 5-6AUGUST, 2025, Taipei Taiwan, OCP APAC Summit
4. https://semianalysis.com/2025/03/19/nvidia-gtc-2025-built-for-reasoning-vera-rubin-kyber-cpo-dynamo-inference-jensen-math-feynman/
5. https://docs.broadcom.com/doc/PEX89000-Managed-PCI-Express-5.0-Switches
6. https://semianalysis.com/2025/06/13/amd-advancing-ai-mi350x-and-mi400-ualoe72-mi500-ual256/
7. Hitesh Ballani etc., Sirius: A Flat Datacenter Network with Nanosecond Optical Switching, Microsoft Research, SIGCOMM ’20, August 10–14, 2020, Virtual Event, USA
8. P. Mishra etc., A 3D-integrated 56 Gb/s Silicon Photonic Transceiver with 5nm CMOS Electronics for Optical Compute Interconnects JFS1-4, 2025 JSAP 2025 Symposium on VLSI Technology and Circuits Digest of Technical Papers
9. 黃水清.用于光突發(fā)交換的光模塊[J]. 光通信研究,2024(5): 240031.
10. Chris Pfistner, Paradigm Shift in AI Clusters using microLED based Interconnects, LightCounting Webinar - July 2025
11. Shai Cohen, Nvidia, A Roadmap Toward Sub 1pJ/b Optical Interconnect, TuG4.1 2025 IEEE Photonics Society Summer Topicals Meeting Series(SUM)
12. Benjamin JL, Gerard T, Lavery D, et al (2020) PULSE: Optical Circuit Switched Data Center Architecture Operating at Nanosecond Timescales. J Lightwave Technol 38(18):4906–4921. URL http://jlt.osa.org/abstract.cfm?URI=jlt-38-18-4906
關(guān)鍵字:光突發(fā)交換OBS,光包交換OPS, 波長路由光交換,波導(dǎo)路由光交換,F(xiàn)ull-Mesh無交換全互聯(lián),MicroLED
作者:黃水清 Credo默升科技;鄒俊博士 舜宇創(chuàng)新研究院
新聞來源:訊石光通訊網(wǎng)
相關(guān)文章