ICC訊 在2025年OCP全球峰會(huì)上,Meta公司的Dan Rabinovitsj表示,超級計(jì)算機(jī)已從需耗時(shí)逾年在精英研究實(shí)驗(yàn)室"精工細(xì)作"的項(xiàng)目,轉(zhuǎn)變?yōu)槊咳湛闪慨a(chǎn)數(shù)百臺(tái)的產(chǎn)品。
"我們正在像量產(chǎn)產(chǎn)品一樣交付超級計(jì)算機(jī),"Meta硬件與AI系統(tǒng)基礎(chǔ)設(shè)施工程副總裁Rabinovitsj在主題演講中表示,"我們正將基礎(chǔ)設(shè)施轉(zhuǎn)型為消費(fèi)電子產(chǎn)品的運(yùn)營模式。"他補(bǔ)充道:"我們習(xí)慣于每年假日季推出新手機(jī)或新電視?,F(xiàn)在我們正以同樣節(jié)奏部署超級計(jì)算機(jī)。"
這種規(guī)模是為滿足AI算力需求以服務(wù)Meta每日34億用戶所必需的。"我們已成功將AI整合到公司幾乎各項(xiàng)業(yè)務(wù)中,"Rabinovitsj說,"這確實(shí)是令人興奮的旅程,但也非常艱難。我曾以為硬件之所以叫硬件是因?yàn)樗y,但實(shí)際上各方面都難。"
在2022年生成式AI革命之前,Meta就已開始使用AI。該公司曾建成橫跨整個(gè)數(shù)據(jù)中心的單一AI集群。隨著時(shí)間的推移,Meta持續(xù)將集群中的GPU數(shù)量翻倍——從24,000個(gè)增至100,000個(gè)。他表示,公司目前正規(guī)劃吉瓦級數(shù)據(jù)中心,其數(shù)百萬GPU將跨越多個(gè)區(qū)域。
規(guī)模的擴(kuò)大導(dǎo)致對錯(cuò)誤控制的要求提高。為此,Meta提出了"服務(wù)器業(yè)力"的概念來預(yù)測服務(wù)器錯(cuò)誤,使公司能夠主動(dòng)將服務(wù)器下線以維持可靠性。"我們下一步的目標(biāo)更加瘋狂,"Rabinovitsj說。
全棧創(chuàng)新
Meta計(jì)劃將AI擴(kuò)展至相距數(shù)百公里的多個(gè)區(qū)域,這需要在軟件、硬件及技術(shù)棧的每個(gè)部分進(jìn)行創(chuàng)新,"一路深入到定制芯片中的晶體管"。公司近期與英偉達(dá)合作推出了Minipack3數(shù)據(jù)中心交換機(jī),并正在開發(fā)名為"非調(diào)度架構(gòu)"的新型網(wǎng)絡(luò)架構(gòu),專為最大規(guī)模的AI集群設(shè)計(jì)。"僅僅為了解決在如此遠(yuǎn)距離上構(gòu)建這些龐大集群的挑戰(zhàn),我們就需要一種方法來保證端到端的性能,"Rabinovitsj說。
他指出,Meta的1吉瓦"Prometheus"集群已在俄亥俄州新奧爾巴尼市投入運(yùn)行,其數(shù)據(jù)中心搭建在帳篷內(nèi)以便更快部署——就像他發(fā)表演講的OCP主題演講所用的大帳篷一樣。5吉瓦的"Hyperion"集群計(jì)劃未來幾年在路易斯安那州里奇蘭教區(qū)上線。Hyperion的跨度相當(dāng)于從紐約下城區(qū)到中央公園,步行需要三個(gè)小時(shí)。Rabinovitsj表示,這將是Meta及其他超大規(guī)模公司建設(shè)的眾多該規(guī)模集群之一。
為實(shí)現(xiàn)此規(guī)模,Meta正在部署多種類型的標(biāo)準(zhǔn)化硬件,這帶來了軟件挑戰(zhàn),并需要向開發(fā)人員社區(qū)隱藏復(fù)雜性。這種多樣性在彈性、性能和冗余供應(yīng)鏈選項(xiàng)方面帶來了回報(bào)。
如同移動(dòng)非洲象
Rabinovitsj表示,對于網(wǎng)絡(luò),只有以太網(wǎng)能滿足Meta的需求。Meta支持新引入的"面向縱向擴(kuò)展網(wǎng)絡(luò)的以太網(wǎng)"OCP工作流,該工作流也獲得了AMD、Arista、ARM、博通、思科、HPE、英偉達(dá)、OpenAI等AI和網(wǎng)絡(luò)領(lǐng)域領(lǐng)導(dǎo)者的支持。ESUN旨在提高縱向擴(kuò)展環(huán)境中的吞吐量并降低延遲。
大型縱向擴(kuò)展域需要更大的機(jī)架。到2027年第三季度,Meta將需要支持多達(dá)256個(gè)加速器的機(jī)架。Rabinovitsj稱它們?yōu)?BFRs"。"我們讓你們自己想象'BFR'是什么,"他說。這些機(jī)架是滿足AI需求所必需的,但它們在設(shè)計(jì)、制造、運(yùn)輸、運(yùn)營和維護(hù)方面都很困難。例如,機(jī)架太大太重,無法放在搬運(yùn)車上。一個(gè)60-70磅的托盤中間容易下垂,需要加固。
Meta不得不設(shè)計(jì)一種新型牽引車在數(shù)據(jù)中心內(nèi)移動(dòng)這些機(jī)架——"其等效質(zhì)量相當(dāng)于一頭非洲象"——并將把該設(shè)計(jì)開源給OCP。"這些東西如此之大,你必須以不同的方式構(gòu)建所有結(jié)構(gòu),以確保在移動(dòng)這些機(jī)架時(shí)具備所需的剛性和完整性,"他說。這些機(jī)架采用液冷,內(nèi)部有"許多昂貴且精密的設(shè)備,因此設(shè)計(jì)中所投入的考量確實(shí)令人印象深刻。"
泡沫?何種泡沫?
Rabinovitsj駁斥了關(guān)于AI是經(jīng)濟(jì)泡沫、即將像互聯(lián)網(wǎng)泡沫或上世紀(jì)90年代和本世紀(jì)初的光纖建設(shè)熱潮那樣崩潰的言論。"這種容量需求至少在未來幾年內(nèi)將持續(xù)存在,并且需要'以質(zhì)量和可靠性'來交付,"他說。
"從事基礎(chǔ)設(shè)施建設(shè)多年,我們曾以為已經(jīng)掌握了關(guān)于規(guī)模的一切,但老實(shí)說,AI每天都在挑戰(zhàn)我們所有人的極限,"Rabinovitsj表示,"我們必須挺身而出,找出解決這些挑戰(zhàn)的方法。"然而,這種需求導(dǎo)致了技能短缺。"整個(gè)行業(yè)都急需高質(zhì)量的工程師,"他說。這也適用于合作伙伴,他們需要雇傭熟練工人在工廠工作。
此外,數(shù)據(jù)中心需要設(shè)計(jì)得能減少溫室氣體排放。"我們需要尋找非常顯著且富有創(chuàng)意的方法來減少所有這些基礎(chǔ)設(shè)施相關(guān)的排放,"Rabinovitsj說。
他總結(jié)道:"對我來說,在Meta工作最有趣的事情之一是我們能夠致力于從PyTorch到晶體管的所有技術(shù)棧層面,這極大地有助于理解這些挑戰(zhàn)的規(guī)模和背景。"