一體化算力網的產業實踐:算網協同、以網強算丨算力網風雲⑯

21世紀經濟報道記者孔海麗 北京報道

算力是數字經濟時代的新型生產力,算力網則是支撐數字經濟高質量發展的關鍵基礎設施。在人工智能等新興技術驅動下,產業各方積極探索算力匯聚,算力互聯互通。

在加快構建全國一體化算力網的過程中,產業鏈上下游分別承擔了哪些角色,涌現出什麼趨勢,遇到了什麼難點與挑戰,又該如何協同解決?

6月21日,由21世紀經濟報道、21世紀新質生產力研究院主辦的“高端智庫看‘新質生產力’——一體化算力建設”閉門研討會在北京落地,研討會邀請到了中國信通院雲計算與大數據研究所、中國社會科學院數量經濟與技術經濟研究所等多位專家及多位企業代表等面對面交流。

百度智能雲、新華三、曙光數創、天風證券分別作爲雲廠商、服務器廠商、數據中心基礎設施供應商、投資機構代表,分享了一體化算力網建設中的企業思考。

算網協同走到關鍵時刻

隨着人工智能技術的快速發展,AI場景下的任務數量以及對智算算力的需求激增,以GPU爲主要芯片的智算算力作爲新型算力,亟待突破。

在這樣的背景下,算網協同、以網強算,成爲重要的解題思路。

新華三路由器產品線總經理汪小勇認爲,很多時候,網絡成了算力建設的瓶頸,如果沒有好的網絡架構與協同,即便搶到了算力卡,也無法把算卡的性能有效發揮出來,這就要求用高效的網絡連接把算力潛能釋放出來。

“在智算時代,通信量非常大,對網絡的時延非常敏感,對網絡的丟包非常敏感,建設智能無損網絡是一個非常重要的趨勢。”汪小勇說,多智算中心的互聯也是一個重要趨勢,通過內部網絡的搭建、算力智能部署,實現低時延、低抖動,並有效降低算力成本,提高算網效率。

百度智能雲混合雲生態合作總監餘晨表示,今年以來,在監管層及產業鏈上下游的共同推動下,算網協同的認知有所深化。在算力一張網的基礎上,不同算力集羣做好場景區分,設計出特定的算力方案,一張大網連接着多張小網,最終實現提效。

餘晨認爲,互聯互通的算力解決方案,應該將異構算力的標準化接口設計、存儲配比及協同化、網絡配比等方面,更精細化地納入到算網設計中,以實現更好地互聯。

曙光數創副總裁姚勇則從硬件端展開分享。他認爲,AI服務器散熱技術走到了關鍵分水嶺。具體而言,光模塊、AI服務器、AI芯片、交換機和液冷設備是組建AI算力的五大必備硬件,隨着AI算力的快速發展,散熱技術也從風冷向液冷階段進化。

姚勇介紹,風冷是以空氣爲冷卻介質,利用風機的強制風冷,風冷成本低,適合小規模數據中心;液冷是以液體爲介質進行熱交換,例如利用水、乙二醇水溶液、空氣製冷劑等進行散熱。液冷爲散熱速度和效率更高,但結構更復雜、成本更高,適合大規模數據中心和智算中心。

目前數據中心溫控仍以風冷爲主,隨着AI的大規模發展,帶動算力需求提升,芯片和服務器功率逐步升級,超出風冷散熱能力範疇。

“我們預測,三年之後,液冷和風冷將平分天下。”姚勇表示:“芯片的工作溫度是八九十度,一定空間裡高密度部署高功率芯片,最後決定算力水平的有可能不是半導體技術,而是散熱技術。”

2023年6月,中國移動、中國電信、中國聯通三大運營商聯合發佈了《電信運營商液冷技術白皮書》,提出2025年50%以上數據中心項目應用液冷技術。“這也將有效推動液冷行業的高速發展。”姚勇說。

在全國一體化算力網建設加快構建的背景下,產業鏈上下游出現了哪些新的動向?天風證券海外資深分析師李澤宇分享了幾個趨勢。

李澤宇表示,AI技術迭代到了關鍵時期,從商業模式上來看,大模型對算力的需求走到了更大的數據級別,對算力一體化的需求大幅度提升,這需要多算力中心高效配合調度,功率密度的提升也讓散熱技術走到了從風冷向液冷轉變的臨界點。

“應用端也有很大的變化,一是智算算力對時延和計算密度的要求大幅提升,二是雲邊一體的推理方式迎來巨大機遇,三是異構計算箭在弦上,解決好不同芯片之間、不同區域算力中心之間的互聯,整個行業處在快速的增長期。”李澤宇說。

產業鏈實踐與挑戰

在全國一體化算力網建設的熱潮中,不同企業主體承擔了不同的角色,在具體實踐中尋求一體化算力網的解決方案。

據餘晨透露,百度的優勢是掌握場景、數據和客戶,把廣泛的客戶需求與上下游產業鏈結合起來,提供一個更具性價比更高效的算力綜合解決方案。

在基礎架構層,涉及算力網絡等資源集羣的管理,雲廠商具備大型集羣運營、管理的業務沉澱;在框架層,得益於大模型在技術架構上的突破,雲廠商得以更多地參與到全國算力一張網的建設中去;在應用層,雲廠商與行業龍頭企業攜手,更好地服務於行業應用。

汪小勇則從“算力+網絡”的層面分析了算網解決方案的要點。據他透露,國內網絡的核心訴求是“無損”,即保證傳輸數據的完整性,同時也要保證傳輸速度和效率。這需要在低時延、零丟包、可靠性、負載均衡和確定性網絡等方面下功夫。

“新華三在大的理念上有12個字,分別是‘以網強算、以算提質、以智增效’。”汪小勇表示,網絡的高效運行可以充分發揮算力的性能,智算算力也可以更好地賦能網絡,新華三的百業靈犀大模型在算力網絡領域形成了行業知識庫,可以指導於網絡建設。

據姚勇分享,曙光數創與互聯網、金融、運營商等領域的客戶一起,在實踐中逐步摸索智算中心部署液冷設備的標準,從既往經驗來看,一臺算力服務器的功率達到15千瓦以上,就有必要採用液冷技術。

“以液冷技術解決高密問題,一是因爲液冷技術本身就具備的優勢,液體帶走芯片熱量更順暢、也更高效;二是要注意從工程角度考慮到流動性、流速、壓力等因素,液冷不是一個單純的單機設備,而是要綜合解決算力協同問題。”姚勇說,巨大的算力在倒逼算力設備做出形態上的變化。

汪小勇提出,一體化算力網絡建設還存在一些難點與挑戰,包括區域性與結構性佈局問題,東西算力結構性不平衡,通算、智算、超算合理佈局仍需進一步提升;二是算力有效調度挑戰,仍需要在技術端與協調機制方面繼續健全;三是網絡通道傳輸與資費問題,質量在提高,資費要進一步降低;安全防護與標準規範建立也需加強。

與會企業代表均表示,將在算力網絡的基礎設施建設、關鍵技術研發、應用等方面進一步加大投入,不斷探索,加強協同。