用戶名: 密碼: 驗證碼:

Meta將超級計算機規(guī)模化生產(chǎn)

摘要:Meta公司硬件與AI系統(tǒng)基礎設施工程副總裁Dan Rabinovitsj表示,為滿足AI算力需求,公司正以消費電子產(chǎn)品的規(guī)?;绞街圃斐売嬎銠C。其AI集群從單數(shù)據(jù)中心擴展至吉瓦級、跨地域部署,并面臨可靠性、人才與減排等挑戰(zhàn)。

  ICC  在2025年OCP全球峰會上,Meta公司的Dan Rabinovitsj表示,超級計算機已從需耗時逾年在精英研究實驗室"精工細作"的項目,轉變?yōu)槊咳湛闪慨a(chǎn)數(shù)百臺的產(chǎn)品。

  "我們正在像量產(chǎn)產(chǎn)品一樣交付超級計算機,"Meta硬件與AI系統(tǒng)基礎設施工程副總裁Rabinovitsj在主題演講中表示,"我們正將基礎設施轉型為消費電子產(chǎn)品的運營模式。"他補充道:"我們習慣于每年假日季推出新手機或新電視。現(xiàn)在我們正以同樣節(jié)奏部署超級計算機。"

  這種規(guī)模是為滿足AI算力需求以服務Meta每日34億用戶所必需的。"我們已成功將AI整合到公司幾乎各項業(yè)務中,"Rabinovitsj說,"這確實是令人興奮的旅程,但也非常艱難。我曾以為硬件之所以叫硬件是因為它難,但實際上各方面都難。"

  在2022年生成式AI革命之前,Meta就已開始使用AI。該公司曾建成橫跨整個數(shù)據(jù)中心的單一AI集群。隨著時間的推移,Meta持續(xù)將集群中的GPU數(shù)量翻倍——從24,000個增至100,000個。他表示,公司目前正規(guī)劃吉瓦級數(shù)據(jù)中心,其數(shù)百萬GPU將跨越多個區(qū)域。

  規(guī)模的擴大導致對錯誤控制的要求提高。為此,Meta提出了"服務器業(yè)力"的概念來預測服務器錯誤,使公司能夠主動將服務器下線以維持可靠性。"我們下一步的目標更加瘋狂,"Rabinovitsj說。

  全棧創(chuàng)新

  Meta計劃將AI擴展至相距數(shù)百公里的多個區(qū)域,這需要在軟件、硬件及技術棧的每個部分進行創(chuàng)新,"一路深入到定制芯片中的晶體管"。公司近期與英偉達合作推出了Minipack3數(shù)據(jù)中心交換機,并正在開發(fā)名為"非調(diào)度架構"的新型網(wǎng)絡架構,專為最大規(guī)模的AI集群設計。"僅僅為了解決在如此遠距離上構建這些龐大集群的挑戰(zhàn),我們就需要一種方法來保證端到端的性能,"Rabinovitsj說。

  他指出,Meta的1吉瓦"Prometheus"集群已在俄亥俄州新奧爾巴尼市投入運行,其數(shù)據(jù)中心搭建在帳篷內(nèi)以便更快部署——就像他發(fā)表演講的OCP主題演講所用的大帳篷一樣。5吉瓦的"Hyperion"集群計劃未來幾年在路易斯安那州里奇蘭教區(qū)上線。Hyperion的跨度相當于從紐約下城區(qū)到中央公園,步行需要三個小時。Rabinovitsj表示,這將是Meta及其他超大規(guī)模公司建設的眾多該規(guī)模集群之一。

  為實現(xiàn)此規(guī)模,Meta正在部署多種類型的標準化硬件,這帶來了軟件挑戰(zhàn),并需要向開發(fā)人員社區(qū)隱藏復雜性。這種多樣性在彈性、性能和冗余供應鏈選項方面帶來了回報。

  如同移動非洲象

  Rabinovitsj表示,對于網(wǎng)絡,只有以太網(wǎng)能滿足Meta的需求。Meta支持新引入的"面向縱向擴展網(wǎng)絡的以太網(wǎng)"OCP工作流,該工作流也獲得了AMD、Arista、ARM、博通、思科、HPE、英偉達、OpenAI等AI和網(wǎng)絡領域領導者的支持。ESUN旨在提高縱向擴展環(huán)境中的吞吐量并降低延遲。

  大型縱向擴展域需要更大的機架。到2027年第三季度,Meta將需要支持多達256個加速器的機架。Rabinovitsj稱它們?yōu)?BFRs"。"我們讓你們自己想象'BFR'是什么,"他說。這些機架是滿足AI需求所必需的,但它們在設計、制造、運輸、運營和維護方面都很困難。例如,機架太大太重,無法放在搬運車上。一個60-70磅的托盤中間容易下垂,需要加固。

  Meta不得不設計一種新型牽引車在數(shù)據(jù)中心內(nèi)移動這些機架——"其等效質(zhì)量相當于一頭非洲象"——并將把該設計開源給OCP。"這些東西如此之大,你必須以不同的方式構建所有結構,以確保在移動這些機架時具備所需的剛性和完整性,"他說。這些機架采用液冷,內(nèi)部有"許多昂貴且精密的設備,因此設計中所投入的考量確實令人印象深刻。"

  泡沫?何種泡沫?

  Rabinovitsj駁斥了關于AI是經(jīng)濟泡沫、即將像互聯(lián)網(wǎng)泡沫或上世紀90年代和本世紀初的光纖建設熱潮那樣崩潰的言論。"這種容量需求至少在未來幾年內(nèi)將持續(xù)存在,并且需要'以質(zhì)量和可靠性'來交付,"他說。

  "從事基礎設施建設多年,我們曾以為已經(jīng)掌握了關于規(guī)模的一切,但老實說,AI每天都在挑戰(zhàn)我們所有人的極限,"Rabinovitsj表示,"我們必須挺身而出,找出解決這些挑戰(zhàn)的方法。"然而,這種需求導致了技能短缺。"整個行業(yè)都急需高質(zhì)量的工程師,"他說。這也適用于合作伙伴,他們需要雇傭熟練工人在工廠工作。

  此外,數(shù)據(jù)中心需要設計得能減少溫室氣體排放。"我們需要尋找非常顯著且富有創(chuàng)意的方法來減少所有這些基礎設施相關的排放,"Rabinovitsj說。

  他總結道:"對我來說,在Meta工作最有趣的事情之一是我們能夠致力于從PyTorch到晶體管的所有技術棧層面,這極大地有助于理解這些挑戰(zhàn)的規(guī)模和背景。"

內(nèi)容來自:訊石光通訊網(wǎng)
本文地址:http://www.tulsarestaurantguide.com//Site/CN/News/2025/10/16/20251016013418105328.htm 轉載請保留文章出處
關鍵字:
文章標題:Meta將超級計算機規(guī)?;a(chǎn)
1、凡本網(wǎng)注明“來源:訊石光通訊網(wǎng)”及標有原創(chuàng)的所有作品,版權均屬于訊石光通訊網(wǎng)。未經(jīng)允許禁止轉載、摘編及鏡像,違者必究。對于經(jīng)過授權可以轉載我方內(nèi)容的單位,也必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和本站來源。
2、免責聲明,凡本網(wǎng)注明“來源:XXX(非訊石光通訊網(wǎng))”的作品,均為轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責。因可能存在第三方轉載無法確定原網(wǎng)地址,若作品內(nèi)容、版權爭議和其它問題,請聯(lián)系本網(wǎng),將第一時間刪除。
聯(lián)系方式:訊石光通訊網(wǎng)新聞中心 電話:0755-82960080-168   Right