ICC訊 雖然英偉達(dá)讓“橫向擴(kuò)展”(Scale across)這一術(shù)語廣為人知,但顯然并非只有這家科技巨頭在思考數(shù)據(jù)中心在AI時(shí)代所需的新型網(wǎng)絡(luò)能力。思科現(xiàn)已強(qiáng)勢(shì)推出其全新的AI網(wǎng)絡(luò)系統(tǒng),該公司認(rèn)為,在數(shù)據(jù)中心致力于構(gòu)建更龐大GPU集群的背景下,這一系統(tǒng)能夠應(yīng)對(duì)挑戰(zhàn)。
該系統(tǒng)包含思科的Silicon One P200芯片及其8223路由器,能為密集的AI工作負(fù)載提供高達(dá)51.2 Tbps的吞吐能力。思科公布了關(guān)于該系統(tǒng)功耗效率、緊湊外形及安全性的一系列數(shù)據(jù)。然而,真正引人注目的是其核心技術(shù):深度緩沖(Deep buffering)。
如果您對(duì)此感到困惑,因?yàn)槟€記得在早期的音樂和視頻流媒體時(shí)代,緩沖通常被視為一件壞事,那么請(qǐng)?jiān)试S我們解釋。
思科(以及英偉達(dá))正試圖解決的問題是:如何在不同數(shù)據(jù)中心之間的長距離上傳輸海量數(shù)據(jù)(即AI流量)。關(guān)鍵在于,它們需要在傳輸過程中不丟失數(shù)據(jù)包,因?yàn)閬G包會(huì)導(dǎo)致AI工作負(fù)載(尤其是訓(xùn)練任務(wù))失敗并需要重頭開始。但避免丟包說來容易做來難。
思科運(yùn)營商連接集團(tuán)(Provider Connectivity Group)高級(jí)副總裁Guru Shenoy告訴Fierce,當(dāng)數(shù)據(jù)進(jìn)行長距離傳輸時(shí),數(shù)據(jù)流可能會(huì)非常突發(fā)(Bursty)。如果線路終端的芯片在突發(fā)數(shù)據(jù)流到達(dá)時(shí)無法容納其中的數(shù)據(jù),就會(huì)導(dǎo)致丟包。他表示,緩沖區(qū)就像水桶,可以容納大量數(shù)據(jù),并有助于平滑流量。
因此,深度緩沖意味著更深的“數(shù)據(jù)桶”和更少的丟包。
但并非所有人都認(rèn)同這是正確的技術(shù)路徑。值得注意的是,英偉達(dá)因其對(duì)額外延遲的擔(dān)憂,并未在其Spectrum-X以太網(wǎng)平臺(tái)中采用深度緩沖。Dell'Oro集團(tuán)副總裁Sameh Boujelbene指出,英偉達(dá)轉(zhuǎn)而采用一種名為“自動(dòng)調(diào)整距離擁塞控制”(Auto-Adjusted Distance Congestion Control)的技術(shù),并利用端到端遙測(cè)技術(shù)來解決與思科相同的問題。
思科Silicon One業(yè)務(wù)高級(jí)研究員Rakesh Chopra承認(rèn),市場(chǎng)上存在一種印象,認(rèn)為深度緩沖會(huì)損害AI性能,但他辯稱事實(shí)并非如此。
他說:“我們?cè)诖艘f明,這實(shí)際上是一個(gè)‘兼顧’的問題。你確實(shí)需要一些人正在談?wù)摰闹悄軗砣刂萍夹g(shù),但這不足以在多個(gè)站點(diǎn)間傳輸此類數(shù)據(jù)。在發(fā)生故障的情況下,確保不丟棄數(shù)據(jù)包的唯一方法就是擁有這些深度緩沖區(qū)?!?
那么,這對(duì)數(shù)據(jù)中心意味著什么?
Boujelbene告訴Fierce,橫向擴(kuò)展市場(chǎng)(她將其描述為AI數(shù)據(jù)中心的互聯(lián))正處在一個(gè)十字路口。
她總結(jié)道:“我預(yù)計(jì)市場(chǎng)將出現(xiàn)技術(shù)路線的分化,就像我們?cè)贏I數(shù)據(jù)中心內(nèi)部已經(jīng)看到的情況一樣?!?