帶你直擊100000 GPU的服務器機房核心——撼全球的馬斯克 xAI Colossus 超級AI集羣!
擁有 10 萬個圖形處理器( GPU ) , 由 埃隆 · 馬斯克( Elon Musk )斥巨資打造的新項目 ——xAI Colossus 人工智能( AI )超級計算機,首次披露了詳細情況。
YouTuber ServeTheHome獲准訪問這臺擁有10萬個圖形處理器(GPU)的超級計算機內部的Supermicro服務器,展示了超級計算機的多個方面。馬斯克的xAI Colossus超級計算機集羣在歷經122天的組裝後,已上線運行近兩個月。
擁有10萬個圖形處理器(GPU),由埃隆·馬斯克(Elon Musk)斥巨資打造的——xAI Colossus Supermicro GPU超級服務器首次曝光。
xAI Colossus超級計算集羣上線已有近兩個月時間,此前歷經122天組裝完畢。
這些GPU服務器採用的是Nvidia HGX H100平臺,每臺服務器包含八個H100 GPU。HGX H100平臺裝在Supermicro的4U通用液冷GPU系統內,爲每個GPU提供便捷的熱插拔液冷功能。這些服務器被裝載在機架上,每個機架可容納八個服務器,即每個機架64個GPU。1U冷卻總管夾在每個HGX H100之間,爲服務器提供必要的液冷。每個機架底部另設有Supermicro 4U單元,配備冗餘泵系統和機架監控系統。
這些機架成組排列,每組八個,總計512個GPU。每個服務器配有四個冗餘電源,機架後部展示了三相電源、以太網交換機及機架級總管,爲所有液冷設備供電。Colossus集羣中有超過1,500個GPU機架,約200組。根據Nvidia首席執行官黃仁勳的說法,安裝這些200組GPU僅用了三週時間。
由於AI超級計算機集羣在持續訓練模型時對帶寬要求極高,xAI在網絡互聯方面不惜重金投入。每塊顯卡都配備了一個400GbE的專用網絡接口控制器(NIC),每個服務器還額外配備一個400Gb的NIC。這意味着每個HGX H100服務器的以太網速度可達3.6Tbps。是的,整個集羣都運行在以太網上,而非超級計算領域常用的InfiniBand或其他異構連接。
當然,像 Grok 3 聊天機器人這樣基於訓練 AI 模型的超級計算機需要的不僅僅是 GPU ,還需要大量的CPU才能運行。因此,Colossus還配置了CPU計算服務器,其外觀與Supermicro存儲服務器極爲相似。視頻顯示,這些服務器多爲NVMe直通的1U服務器,採用某種x86平臺CPU,配備後置液冷系統,用於存儲和CPU計算。
在機房外,還看到了一些特斯拉Megapack電池組。由於集羣的啓停特性以及運作過程中產生的毫秒級延遲超出了電網或馬斯克的柴油發電機的負荷能力,部分特斯拉Megapacks(每個儲存可達3.9 MWh)用作電網和超級計算機之間的能量緩衝。
根據Nvidia的說法,xAI Colossus超級計算機目前是全球最大的AI超級計算機。與其他超級計算機主要供承包商或學術機構研究氣象、疾病等複雜計算任務不同,Colossus僅用於訓練X(前身爲Twitter)的各類AI模型,尤其是馬斯克的“反覺醒”聊天機器人Grok 3,僅面向X Premium訂閱者開放。ServeTheHome透露,Colossus還在訓練“未來的AI模型”,這些模型的用途和能力超出當今主流AI。
Colossus的第一階段建設已完成,集羣已全面上線,但尚未完全竣工。增加5萬張H100 GPU和5萬張下一代H200 GPU,GPU總數將翻倍,升級後電力需求將超出馬斯克7月新增的14臺柴油發電機的供電能力。這也低於馬斯克承諾的Colossus內部安裝30萬個H200 GPU的目標,這可能是未來的第三階段升級。
位於德州“特斯拉超級工廠”的5萬GPU Cortex超級計算機也歸屬馬斯克公司,專注於訓練特斯拉的自動駕駛AI技術,主要用於處理攝像頭畫面和圖像識別。此外,特斯拉在紐約州布法羅即將開始建設耗資5億美元的Dojo超級計算機項目。最近百度首席執行官李彥宏等行業人士預計,AI泡沫破裂後,99%的AI公司將倒閉。馬斯克的創紀錄AI投資是會適得其反,還是帶來回報,尚待觀察。
芯片精品課程推薦
雙11優惠活動開啓 75折!