英偉達Blackwell芯片存在“發熱問題”,引發客戶擔憂
英偉達Blackwell芯片曝出發熱問題,需要重新設計機架並可能導致客戶延誤。
據The Information週日報道,英偉達下一代Blackwell處理器安裝在高容量服務器機架時面臨着過熱的挑戰。發熱問題導致了設計變更和延遲,並引起了Google、Meta 和Microsoft等客戶的擔憂,他們擔心自己是否能按時部署Blackwell服務器。
此前,由於芯片出現設計缺陷,英偉達已不得不將Blackwell GPU的生產和交付推遲至少一個季度。這兩起事件凸顯了英偉達在滿足客戶對AI硬件的需求方面所面臨的困難。
新的服務器機架之所以意義重大,是因爲其集成了72個英偉達 AI 芯片,預計每機架功耗高達120kW。由於過熱會限制GPU性能並有損壞組件的風險,該問題導致英偉達多次重新評估其服務器機架的設計,
針對延遲和過熱問題,英偉達已指示其供應商對機架進行幾項設計更改,以解決過熱問題。該公司與供應商和合作夥伴密切合作,開發工程修訂版以改善服務器冷卻。雖然這些調整對於如此大規模的技術發佈來說是標準做法,但它們仍然增加了延遲,進一步推遲了預期的發貨日期。
高管們表示,他們至少需要幾周的時間來測試系統並解決可能出現的問題,尤其是考慮到其新穎的設計和前所未有的複雜性。據一位參與設計的人士稱,一些客戶(如微軟)計劃通過更換一些組件來定製Blackwell 機架,以適應他們的數據中心。
與此同時,客戶也在考慮其他選擇。一家訂購了機架的雲計算公司的高管表示,Blackwell的問題導致該公司考慮購買更多英偉達當前一代 Hopper 芯片。
分析表示,客戶決定購買更多Hopper芯片,可能會提高英偉達的短期收益,分析師和投資者估計 Hopper 系列的利潤率更高。但這對英偉達未來的收入增長來說可能不是一個好兆頭,已經轉向 Hopper芯片的客戶可能不會訂購那麼多Blackwell芯片和NVLink服務器。