AI推理時代:算力能耗瓶頸下的“密鑰”何在?

智東西作者 程茜編輯 漠影

2024年,千行百業對AI推理的需求將呈現出爆發式增長,行業對算力的需求遠遠超越以往。在這樣的形勢下,如何突破能耗瓶頸,進而獲取更充足的算力,已經成爲每個企業迫在眉睫且亟待解決的關鍵問題。

然而,當前的現實情況是有效算力供給已無法滿足算力需求:一方面,從儲備到應用的算力需求都愈發旺盛,OpenAI CEO召集全球投資者組建聯盟爲大模型構建基礎設施,馬斯克的無人駕駛出租車Cybercab爲科技行業描繪了未來感十足的面面,還有性能愈發強大的GPT-o1等模型層出不窮。

另一方面,數據中心的算力潛能尚未被完全挖掘出來。數據中心常被認爲是“耗電怪獸”,因爲服務器運行伴隨着熱量釋放,溫度一旦超過極限值,服務器性能就會顯著降低,限制數據中心算力發揮。於是各類創新技術涌現,試圖讓數據中心再次突破能效瓶頸,釋放出被束縛的算力潛能。

這背後的關鍵變量就是冷卻技術,液冷技術作爲推手幫助數據中心一次次突破制約。就在聯想集團Tech World上,聯想集團董事長兼CEO楊元慶與NVIDIA創始人兼CEO黃仁勳,這兩大全球科技行業頂尖企業的領軍者同臺,聯合發佈全新液冷AI服務器,勇闖“最大工業革命”。

今天,伴隨2024/2025財年Q2財報,聯想集團發佈《Game of AI》系列知識科普視頻的第二集《數據中心:如何與世界交換算力》。

//oss.zhidx.com/uploads/2024/11/673702e8e527e_673702e8e0dce_673702e8e0d93_107393_1731658404.mp4

視頻延續桌面電影形式,通過《權力的遊戲》風格的開場片頭,復刻北境冰雪氣候變化,打造亦真亦幻的三維沙盤動畫,以此緊扣液冷主線。

同時,視頻還以兩條科技樹線索,介紹了數據中心和能效的角逐演進歷程,採用冰雪白爲主的配色方案與模擬芯片的三維結構,融入液冷主題。

視頻中以第一人稱桌面電影的創新手法,讓觀衆跟隨存在於2100年未來時空,以科技歷史學家李約瑟爲原型的智能體,並通過它的主觀視角展開了一場算力史與能源技術史的探究,如何通過計算重構世界,以及其中的可持續發展路徑,發現液冷技術在釋放數據中心算力中的關鍵作用。

一、提升能效、維持功耗,數據中心效率革命正當時

聯想集團最新發布的第六代Neptune海神液冷解決方案,可以爲生成式AI高效計算提供動力。這在當下對於數據中心算力效率提升的重要性不言而喻。

通過視頻中聯想集團梳理的數據中心百年發展歷史,我們發現,數據中心的算力與能效密切相關,二者共同掌握着能量密碼。

人類對算力的利用由來已久,但隨着信息技術革命到來,算力的性能和規模迎來爆發,算力需求逐漸多元化,深入汽車、大模型等各種應用場景。

2024年,算力提升的關鍵已經從狂堆硬件轉向提升效率,如今數據中心需要的革命是基建效率的角力。目標是在充分利用數據中心已有硬件設備的基礎上,使其發揮出更高能耗並提供更強大的算力。視頻以桌面電影第一視角,通過網頁、文件等多樣化載體提取信息,給觀衆帶來更多操控互動感受。

在明確數據中心效率這一概念的同時,需要先搞清楚一個指標——TDP熱設計功耗。這指的就是當芯片達到最大負荷時熱量釋放的指標,也是冷卻系統要面對的重大挑戰。

一旦超過這一極限值,處理器的溫度繼續升高,就會導致數據中心的性能降低,讓芯片發揮計算能力的前提就是,處理器運行過程中產生的熱量和冷卻技術的散熱能力達到平衡。

因此提升基建能效,將其從能耗制約下拯救出來的關鍵就是冷卻技術。二者相互制約又相互關聯,共同決定了數據中心的穩定運行和能源利用效率。

數據中心和能效兩條技術路線交織前進的同時,一步步助推AI產業的技術創新與應用落地加速實現,加速智能時代到來。

二、冷卻技術:算力歷史長河中的關鍵脈絡

算力工具從僅憑大腦運算到機械計算機、電子計算機,形態幾經變遷,已經從數據中心的無限擴張轉移到基建效率的角力上。

聯想集團以桌面電影的形式,讓我們親身體驗了計算的百年曆史。視頻中通過更契合冷卻與算力主題模擬芯片三維結構,展現出數據中心變遷的關鍵環節。最初圖靈機理論出現,奠定計算的設計理念,由虛擬機器替代人類進行數學運算。再到1946年運算速度達到了手工計算20萬倍的ENIAC出現,1951年第一臺商用計算機UNIVAC I首次擁有存儲能力,爲現代計算機的體系結構奠定了基礎。

再到後面,20世紀60年代分時操作系統使得計算開始通用,計算機的處理器佔用被切分,可以讓多人同時使用計算機。

計算性能的大幅提升,隨之而來的就是散熱系統的工作負荷急劇增加。視頻以水上、水下逐步揭示數據中心明線與能效暗線,通過水中浮起等細節動畫,讓人沉浸其中。

早期風冷技術是數據中心散熱的主要方式之一,20世紀90年代出現的機架式服務器就是數據中心的初始形態,但因爲空間緊湊、設備密度較高,風冷無法再滿足散熱需求。

機械冷卻登上歷史舞臺,空調通過壓縮機、冷凝器、蒸發器等核心部件的協同工作,產生低溫冷風帶走熱量。從而使冷卻技術在互聯網首次蔓延,第一次拯救了算力。

冷卻技術拯救算力的第二大節點,就是高性能計算集羣的出現。高性能計算集羣將單機櫃功耗直線拉昇百倍,達到50kW,冷卻技術再遇瓶頸,空調無法滿足如此快速、高效散熱的需求。

其中的標誌性事件就是聯想集團2012年推出的海神Neptune溫水水冷技術。其率先提出了適用於高密度計算環境的溫水水冷技術,使用45℃~50℃的溫水在冷卻板和循環水路中循環,達到降溫的效果。視頻通過對溫水水冷服務器進行首次全方位拆解,結合圖表、動畫,深入淺出展現了溫水水冷技術。

該技術通過全水冷無風扇設計,使服務器散熱效率達98%,並實現90%的餘熱回收再利用,降低42%的能耗,數據中心PUE可降至1.1,同時其總體成本低於風冷。

這之後,液冷技術全面爆發,成爲高性能計算的主流選擇。

液冷技術的發展爲數據中心能效提升,開闢了一條行之有效的路線,併爲大模型時代的算力注入了新的動力。

三、液冷——AI時代釋放澎湃算力的 “動力源泉”

AI時代下半場,百模大戰落下帷幕,GPU、CPU、TPU、服務器演化出千百種形態,AI軍備競賽的焦點,正從模型向數據中心轉移。

AI訓練和推理的算力需求激增,對數據中心的需求水漲船高。一張GPU的功率飆升至1000W,單機櫃功率密度增至100kW。

隨之而來的就是對冷卻系統的又一次嚴峻考驗。這是因爲在高功率密度的環境下,設備單位體積內產生的熱量會大幅增加,就需要散熱系統的工作效率更高,才能快速帶走熱量保證設備持續運轉。

聯想集團2024 Tech World大會上發佈的全新液冷AI服務器,搭載第六代海神液冷系統,具備突破性的垂直液冷設計方案。視頻通過三維動畫直接對該系統進行了拆解,更爲直接的呈現了其內部構造。

憑藉ThinkSystem N1380 Neptune和新的ThinkSystem SC777 V4 Neptune,聯想集團率先在不需要專用數據中心空調的情況下就可以運行100kW以上的服務器機架,這一設備就是專爲大模型而打造。

在優化部署方面,液冷服務器可豎直放置,能在提升空間利用效率的同時,進一步增強散熱效果,這在此前的液冷系統中並不多見。

其還採用精巧封裝設計,包含8個托盤槽、4個15kW功率轉換站以及Neptune水流分配系統。

基於這樣的優化設計,第六代海神技術使得數據中心的PUE趨近於1.0的極限,這也意味着整個數據中心設備對能源的利用率接近100%。

視頻畫面穿越數據中心的服務器,看到了海神液冷系統爲解決數據中心能耗問題帶來的希望。

但這並不是液冷技術的終場戰局。如今,算力需求洶涌向前,聯想集團通過顛覆機櫃、機房固有格局,用全面液冷的超大型AI集羣解決方案——液冷集羣微模塊,爲AI產業的突破裝載了推進器。

視頻中通過逼真寫實風格的服務器形態切換三維動畫,再輔以鼠標手動操作方式,讓觀衆直觀感受了從服務器模塊到機櫃再到液冷微模塊的重構過程。

液冷集羣微模塊的出現,成爲數據中心的最優解之一,液冷技術第三次釋放了數據中心的算力能耗限制。

從高性能計算時代,到AI時代的下半場,聯想集團持續引領液冷解決方案設計,加速算力的釋放。液冷技術的革命日益受到廣泛而密切的關注,並對數據中心產業鏈、供應鏈產生革命性影響。

結語:液冷成可持續算力保障,AI加速向實

算力已經成爲人工智能進入真實的產業環境中不可或缺的核心要素,液冷技術更高效地帶走高溫,使算力可持續,讓數據中心源源不斷與世界交換算力。

黃仁勳在與楊元慶對話時提到:“現在,我們正在以前所未有的規模重塑計算領域的整個架構。現在,速度就是可持續性,速度就是表現力,速度就是能源利用率。”

如今,AI重塑整個世界運行邏輯,算力正是其堅實的底座。正如聯想集團打造的視頻結尾所說,“服務器與數據中心作爲千行百業的基礎設施建設,將重新定義AI作爲生產力的能量源泉,並以世界之力再造世界”。