新華三副總裁李喬: 突破國內AI Infra困局,從山重水複到柳暗花明

(原標題:新華三副總裁李喬: 突破國內AI Infra困局,從山重水複到柳暗花明)

新華三集團副總裁、互聯網事業部總經理李喬

1、AGI,路還長!

最近和一些朋友聊天,他們很容易將AIGC和AGI混淆,其實當下主要的爆款模型或應用只是AIGC範疇,而AGI的目的是實現真正的自主學習和創造,其核心是讓計算機具備人類般的智能,能夠像人類一樣學習、思考和解決問題。那麼,我們距離AGI還有多遠?OpenAI  CEO阿爾特曼在一次採訪中提到,AGI可能在五年內實現。與阿爾特曼不謀而合的還有英偉達的CEO黃仁勳,他在近期的一個論壇上表示:如果把AGI標準定爲通過人類創制的各種測試的話,那麼預計5年左右時間,AI就可以通過任何人類測試。因此,AI還有很長的路要走。

前陣子我參加了WAIC2024,會上各行業領軍人圍繞“應用-模型-算力”幾個維度展開了激烈討論。但是整場會議聽下來,真正談算力基礎設施的話題並不多,然而我認爲這反而是影響當下中國AI發展的關鍵因素。所以本文我們重點談談國內AI  Infra的這條長路上的幾座大山如何翻!

2、國內AI Infra路上的大山

一、X因素影響先進AI芯片的供應與設計

由於一些衆所周知的因素,供應到國內的AI芯片從單芯片晶體管數量、算力密度、聯接帶寬等方面均受影響,國內芯片的流片同樣受限。這不禁讓我聯想到一部著名小說《三體》中的“智子”,“智子”不但時刻監控地球狀態,更甚者進入對撞機代替質子進行撞擊從而鎖死地球基礎科學,這與我們當下的處境“異曲同工”…

二、智算市場亂象叢生,算力資源、算力生態碎片化

智算中心作爲人工智能產業發展的重要底層基礎設施形態,正在成爲建設的熱點。熱錢的涌入導致了一窩蜂上馬的現象,但很多項目都是以供應能力作爲依據進行建設,缺乏全盤的統籌。資源分佈散碎,配置型號不一,難以形成規模效應,使得算力的整合與優化變得異常困難。由於難以進行規模化集羣交付和資源統籌,在AI計算資源如此緊張的當下,甚至出現了很多智算中心AI服務器空轉、停機的現象。

同時,各芯片廠商忽視上層應用遷移及兼容程度,導致算力系統的應用效率偏低。每個智算廠商都有一套獨立的開發環境和生態系統,生態研發投入較爲碎片化。相較於CUDA生態2萬餘開發人員,550個SDK,每年50億美金的開發費用投入,是我們國家所有AI芯片公司生態投入總和的幾十倍甚至上百倍。生態資源的分散很難形成規模效應,爲開發人員和實際大模型的遷移部署帶來數倍工作量的增加。

三、面向大規模的AI應用場景,算力能效比亟待提高

算力的盡頭是電力。預計到2025年,國內數據中心用電量佔全社會用電量的比重將達到5%。隨着AGI過程的持續深入,人工智能的觸角藉助各類傳感器進入物理世界,這個佔比可能達到20%-25%。

即便如王堅院士在WAIC2024上所說“對照算力設施,我國當下的能源是過剩的”,那從經濟效益角度出發,當下的智算中心能效比也是急需改善的。有人測算,某著名長文本大模型每進行一次200萬長文本推理的成本是8-10塊錢,降低成本的抓手一方面是算力設施,另一方面就是能效比。調查顯示,智算中心每處理1G數據耗電量大概需要13kW·h,由此可見提高算力能效比是實現AI應用規模部署必須要過的一關。

針對以上困局,一方面需要政府牽頭進行生態整合,從更宏觀的維度帶領中國AI走出困境。另一方面,需要基於當下有限的資源,最大程度發揮AI  Infra的價值!對此,我們認爲存在三個突破口:算力多元化、聯接標準化、能源低碳化。

3、算力多元化

3.1算力芯片多元化

從應用場景看:AI  Infra需要支撐各類業務,如大模型訓練、推理、向量數據庫、RAG(檢索增強生成)、PFS高性能存儲等。這些應用對算力的性能、精度、響應速度等方面有不同的要求。例如,大模型訓練需要強大的FP16浮點計算能力;大模型推理通常採用FP8、INT8等方式進行量化計算;向量數據庫屬於計算密集型負載,需要用到強大的CPU算力。單一算力難以滿足這種多元化的需求。

從供應保障看:AI芯片的“智子問題”會長期存在,依賴單一的供應源可能會面臨供應中斷、價格波動等巨大風險。通過多元化供應,可以降低因單一供應源出現問題而導致的業務中斷或服務質量下降的風險。在競爭激烈的市場環境中,多元化算力供應也會促使廠商不斷創新和優化自己的產品和服務。

可喜的是在芯片多元化方面,新華三等頭部ICT設備廠商已經投入大量資源同大多數國產芯片廠商進行了開發適配工作,當前已經具備多元芯片算力的規模交付能力。

3.2算力架構創新

算力芯片多元化之後,在單芯片的計算效率仍然受到“摩爾定律”和“智子”效應雙重壓力下,未來3~5年,算力架構的創新是解決大模型集羣訓推效率問題的最有效出路之一。

我們知道,當下典型的AI服務器僅支持一套含8卡的OAI  GPU模組,8張GPU卡之間通過私有的技術實現高速互聯。隨着模型參數規模不斷增長,8卡模組限制了張量並行、MOE專家並行的規模,大量的機間通信流量需要通過Scale  Out網絡,不利於GPU芯片的有效算力得到充分發揮。我們應該重點關注如何將現有單體芯片通過更加靈活先進的架構組成高效的算力系統:

從服務器整機的維度——我們可以複用現有8卡OAI架構,單芯片封裝兩顆裸Die,實現算力翻倍。另一方面可以參考NVIDIA  MGX架構,設計16卡方案,通過底板Switch芯片實現16卡互聯,GPU與CPU通信依然採用PCIE鏈路。不過16卡方案給整機散熱帶來巨大挑戰,需要綜合考慮冷板式液冷的方案對GPU卡以及Switch芯片散熱。同樣的,基於16卡架構進行改善,一塊GPU卡封裝2顆Die也將帶來算力密度的極大增加。整機維度的升級需要背靠OAM/UBB/EXP的標準化,OAI工作組在這裡發揮了至關重要的作用,新華三等OAI標準制定者將持續加強對社區的貢獻。新華三作爲主力成員撰寫了OAI2.0規範,後續我們也會持續關注OAI3.0對於架構創新的規劃與設計。

從集羣系統的維度——可以考慮將更多的GPU互聯起來,以Scale  UP的方式提升整體算力。在互聯技術的選擇上,以太網技術憑藉開放的生態、成熟的產業鏈、清晰的演進路徑,成爲當前非常理想的選擇。目前,支持以太網接口的GPU產品日益豐富,可提供51.2Tbps交換容量的交換機在2023年已經商用部署,採用如下圖所示的拓撲結構,可以在一個機櫃內提供64個甚至更多個GPU,有效提升算力密度。

ODCC網絡組在2024年啓動了ETH-X超節點系列項目。該項目採用以太網技術構建HBD(High Bandwidth  Domain)超高帶寬域,將16卡以上的GPU互聯起來,打造大型多GPU互聯算力集羣系統。

新華三作爲ODCC成員單位,正在積極推動該項目的落地。

3.3異構資源管理

在同一個訓練或推理任務中,算力多元與算力堆砌必然帶來一系列問題:

不同廠商AI芯片的互聯拓撲和互聯帶寬存在差異,並各自開發了相應的集合通信庫,跨廠商的互聯互通存在風險

不同廠商AI芯片軟件棧不同,採用不同的運行時、編譯器、算子庫、加速庫等,對AI框架和大模型的支持情況均存在差異

不同廠商AI芯片的算力、顯存容量、顯存速度等均存在差異,在模型並行時,難以進行負載均衡的模型切分

要解決上述問題,需要有一套強大的異構資源管理平臺。能夠兼容國內外主流 AI  芯片,最大程度上屏蔽硬件之間差異,幫助上層應用擺脫單一芯片依賴;能夠對不同地點、規模、集羣的智能算力進行統一、高效的管理,大幅提升智能算力效能;可以根據訓推任務,實現更靈活的策略調度與任務編排。

要建設一套異構資源管理平臺,可以從以下方面入手:

開發統一的集合通信庫實現對不同廠商GPU的納管,屏蔽不同廠商的差異:當GPU廠商的通信庫開放時,可直接調用,實現統一納管;當GPU廠商的通信庫不開放時,可通過二次封裝實現納管。利用統一的集合通信庫,可以實現不同GPU廠商利用RDMA協議進行互聯互通。

提供統一的計算加速層,將不同GPU廠商的算子、加速策略、編譯器等與上層應用解耦,GPU廠商可各自完成針對性算子調優。

在模型切分策略方面,異構計算平臺利用掌握的不同GPU芯片算力、顯存大小、顯存速率等最佳實踐數據,可快速計算出最優的任務切分策略,比如分配多少訓練數據、切分多少模型層數等,確保整體效能最大化。

異構資源管理是當前技術創新的熱點領域,也是工信部希望儘快解決的智算中心關鍵技術問題之一。在業界衆多公司的努力下,正在不斷取得新的進展:

百度百舸異構計算平臺推出了多芯混合訓練方案,將各類芯片融合成爲了一個大集羣,整合發揮這些算力的最大效能,支持更大模型訓練任務。該方案不僅通過百度智能雲的公有云提供服務,同時還可以通過ABC  Stack專有云進行交付。

智源研究院推出了面向異構AI芯片的FlagScale高效並行訓練框架,目標是在不犧牲穩定性和模型有效性的前提下,在不同的AI芯片上支持同一個訓練任務。2023年11月發佈的版本已經實現了NVIDIA  GPU和天數GPU的異構混訓。

新華三自主研發的傲飛算力平臺提供從底層驅動到應用層框架整體技術棧,支持不同異構硬件的算子庫、編譯器、開發工具等,自研統一集合通信庫UCCL,實現異構GPU統一通信、模型自適應切分,提供AI大模型訓練/微調/評估/推理全流程開發服務。

以上就是算力多元化的全部內容,算力多元化是國內AI Infra破局的根基。

4、聯接標準化

4.1聯接協議標準化

網絡是聯接各算力單元和應用系統的紐帶,打造開放解耦、靈活擴展的網絡聯接,是構建多元融合智算體系的關鍵所在。Scale Out和Scale  UP網絡需要滿足GPU擴展性需求,承載GPU之間巨大的通信數據量,對提升智算中心的性能起着至關重要的作用,也是目前技術創新的熱點。

Scale Out的演進趨勢比較清晰。在現階段,採用RoCE技術基本成爲業界的共識。爲了解決RoCE網絡的問題,2023年7月,超以太網聯盟 (Ultra  Ethernet Consortium,UEC)  正式成立。UEC致力於從物理層、鏈路層、傳輸層、軟件層改進以太網技術,在兼容當前以太網生態的前提下,使超以太網技術滿足人工智能和高性能計算對網絡的需求。因此,Scale  Out網絡未來向UEC演進是比較確定性的趨勢。

Scale UP目前呈現出百家爭鳴的狀態:

NVIDIA使用NVLINK作爲GPU Scale UP互聯技術。目前NVLINK已經演進到第五代,底層使用224G PAM4  Serdes,將GPU之間的互聯帶寬提升到1.8TB/s,藉助NVSwtich,最多可以把576個B200 GPU互聯在一起。

國內GPU廠商通常會採用CCIX(Cache Coherent Interconnect for  Accelerators)作爲卡間互聯協議,CCIX協議利用PCIe的物理層和數據鏈路層,互聯帶寬受限於PCIe的發展速度,互聯規模通常只能做到8卡。

Intel  Gaudi2和Gaudi3採用RoCE作爲卡間互聯協議,每個Gaudi3芯片提供21個200GE以太網接口用於實現和其他芯片的互聯,可以提供1TB/s的卡間互聯帶寬,利用外置的以太網交換機,可以把64個以上的Gaudi3互聯起來。

爲了解決GPU間通信的傳輸瓶頸及標準化問題,2024年5月,AMD與Intel歷史性聯手,協同博通、思科、谷歌等企業成立UALink標準組織,提供GPU間通信的標準接口。  UALink 1.0標準預計在2024年Q3推出,帶寬更高的UALink 1.1將於2024年Q4推出。

2024年6月,阿里雲、中科院計算技術研究所及其他40餘家企業聯合發起成立了高通量以太網聯盟,將在今年9月發佈國內首個高通量以太網協議1.0,提出面向智算場景的網絡解決方案,同時首次完整提出了針對集合通信的在網計算解決方案。

UEC/UALink/高通量以太網——最終落地並形成成熟的產業鏈均需要較長的時間。在現階段,使用標準的RoCE技術統一GPU Scale UP及Scale  Out網絡是比較可行的方案。

RoCE在Scale Out網絡中早已大規模商用部署,把RoCE引入到Scale UP網絡有以下優勢:

1、可以解決互聯帶寬問題,800Gps以太網已經商用部署,1.6Tbps以太網有望在2025年成熟商用,完全可以滿足GPU間高速通信需求。

2、RoCE技術已經非常成熟,在GPU芯片中,通過UCIe等技術,引入支持RoCE的IO DIE,在技術和生態上相對比較容易實現。

3、通過優化集合通信庫,可以有效規避網絡擁塞,保障集羣性能。

4、Scale UP網絡規模可控、通信模式相對確定,完全有可能通過優化交換芯片的轉發方式進一步降低時延

正是基於以上考慮,Intel提出了基於RoCE的Gaudi2/3 Scale  UP方案;ODCC提出了前文所述的ETH-X超節點項目;新華三提供支持標準RDMA協議棧的以太芯粒方案。而面向高價值場景,新華三則推出了基於信元轉發的FE/FAP半導體方案作爲補充。

我們認爲當下階段以太RoCE就是統一Scale  Out/Up網絡的標準協議,當然了,我們也會持續關注UEC/UALink/高通量以太網協議的發展和落地。

4.2算網深度融合

算力和聯接是AI  Infra的雙基石。對算力和聯接進行最佳的調優和配合,實現算網融合,激發出“算力×聯接”的乘數效應,將會對上層的AI應用提供更好的支撐。

如何將兩者融合?基礎方案是綜合考慮GPU的卡間互聯拓撲及網卡配置去選擇合適的網絡接入拓撲及模型切分方式,比如普遍採用的“多導軌聯接”。接下來我們談三點進階方案:

第一,需要將AI服務器、網卡、交換機當做一個整體,  結合創新的擁塞控制算法,實現端網協同,優化整個RoCE網絡性能。在端網融合方面,Google、阿里、AWS等互聯網大廠均已經基於私有的算法和協議實現落地。UEC也把端網融合作爲重要的創新點,UEC在數據鏈路層提出了基於信用的流量控制(CBFC)機制,用於取代PFC流量控制;在傳輸層優化了擁塞控制機制。

新華三也正在投入算力網卡的規劃,實現端網融合,總體思路如下:

擁塞控制方面,發送端基於接收端發送的Credit、ACK/NACK、RTT等信息,通過調整滑動窗口方式控制發送速率。在負載均衡方面,發送端選擇適當的熵值,當反饋數據包表明與給定熵相關的路徑擁塞時,修改熵值,交換機根據熵值進行逐包負載均衡,根據擁塞狀態反饋ECN,接收端側進行報文重組。

第二,通過將通信庫、網絡控制器、網絡分析器結合起來,實現算網協同調度,如下圖所示:

新華三開發了自研的UCCL統一通信庫,UCCL上報AI服務器卡間互聯拓撲及訓練任務中節點間通信關係給控制器,控制器站在全局視角,統一規劃轉發路徑,避免設備局部視角HASH不均問題,通過向交換機下發Traffic  Matrix,指導設備轉發,訓練任務結束後,控制器根據UCCL上報的信息,刪除相關任務。

第三,算力與網絡在廣域層面的融合成爲強需求,算力網絡應運而生。算力網絡是一種將算力與網絡深度融合的新型基礎設施。它通過網絡連接分佈在不同位置的計算資源,包括數據中心、邊緣計算節點等,並根據用戶的需求和應用場景,對算力資源進行靈活的調度和分配。當前,國家正在大力發展“東數西算”戰略,在西部數據中心進行大模型的訓練,在東部人口稠密地區部署推理集羣,訓練數據和算力已不侷限於單一的數據中心,新型計算任務和大量數據需要在多個算力中心間流轉。

算力網絡通過端側、網側和管控系統等多方協同,基於廣域流量調度、傳輸協議優化、數據智能壓縮等功能的完善,實現網絡承載、智能管控、端側優化的協同演進,滿足業務快速開通、高通量傳輸的需求。

綜上所述,通過聯接標準化,能夠打破AI基礎設施內各種“看不見的壁壘”,讓算力得以更靈活地調度和釋放,給模型的訓練、推理帶來更高效、更穩定的支持。

5、能源低碳化

5.1加強算力碳效

從設備級維度來看,可以通過一系列技術創新來降低單位算力造成的能耗。這裡介紹一項業界新型供電技術領域的熱點話題:垂直供電。

目前典型的GPU峰值電流的需求高達2000A,在傳統的水平供電架構中,電源和芯片被安置在同一平面上,從電源至芯片管腳的距離大約在2至3釐米。這種佈局方式在高電流場景下導致了不可忽視的傳輸損耗。由於電源的功耗與電流平方和直流電阻(DCR)成正比,即P=I²*DCR,在高電流情況下,傳統水平供電的損耗成爲了主要的能耗問題。

爲了應對這一挑戰,垂直供電方案應運而生,其將電源模塊放置於芯片IC的背面,實現背靠背供電。通過打通印製電路板(PCB)的過孔,電源至芯片管腳的距離大幅縮減至PCB厚度,大約2至3毫米,從而大幅降低了傳輸損耗。

新華三積極投入垂直供電等新型供電技術的預研,並取得重要成果。新華三垂直供電解決方案採用標準的PB模塊,自行設計PB承載板,形成成本更低的垂直電源方案。在製造工藝,尤其是焊接工藝方面,大芯片焊接本身難度大,且和垂直電源雙面對貼,溫度容易不均勻,翹曲風險大。新華三通過精確溫度管控、焊錫量匹配、四角支撐方案等手段確保在整個生產過程中維持焊接質量,同時爲維修保留一定的餘量。

從系統級維度來看,需要增強能耗治理方案的智能化。以新華三AI能耗治理解決方案爲例,可以通過AI  Agent微服務進行全域數據採集,融合“雲、網、端、安”等形成統一運維理念滿足用戶全域能耗管理要求。利用AI大模型等技術解決能耗管理中的異常、容量預測、根因分析等問題,從應用視角依託CMDB數據、資源關係和數據流形成拓撲視圖,集成部署到U-Center大平臺或獨立部署,實現統一的設備及動力環境管理能力。利用能效管理模塊實現對液冷設施、CDU設施、動力UPS及配電、環境及外圍冷卻設備的詳細管理,通過AI算法實現對能耗異常的智能告警及自動調控,通過統一大屏實現能耗治理效果可視、基礎設施能耗管理巡檢、節電自動處理策略等,滿足AI基礎設施日益增長的能耗管理需求。

增強系統級碳效的另一個有效途徑就是全棧液冷,全棧液冷需要具備五大關鍵能力:全生命週期服務、多元算力液冷、全液冷技術路線、便捷維護、安全可靠。通過全棧液冷可以打造穩定智能&節能高效的高碳效智算中心。

5.2加強區域資源利用

首先,需要加大綠色能源佔比。綠色能源的充分利用是實現智算中心低碳發展的重要途徑。太陽能、風能、水能等可再生能源具有清潔、低碳、可持續的特點,將其引入智算中心的能源供應體系,能夠有效減少對傳統化石能源的依賴,降低碳排放。其次,需要重視電網系統優化。例如源網儲荷的協同發展,通過優化電源、電網、儲能和負荷之間的協調配合,實現能源的高效傳輸和分配;再例如在電力供應充足時,將多餘的電能儲存起來,以備在用電高峰或電力供應不足時使用,從而實現削峰填谷,平衡電力供需,提高電網的穩定性和可靠性。

總之,推動能源低碳化是一項具有深遠意義的任務,需要政府、企業和社會各界的共同努力,我們有信心實現智算中心的綠色低碳轉型!

總結:

AI還有很長的路要走,我們需要清晰得認識到國內AI  Infra的困局。而關於破局之道,本文中提到的三個觀點也只是冰山一角。我相信只要業界齊心協力、聚沙成塔,我們終能走出一條山重水複到柳暗花明的道路!