大模型時代下,企業需要什麼雲?

手工勞動/獸姐

手工編輯 /角叔

出品/獨角獸挖掘機

開年來,隨着ChatGPT的狂飆,引發了一輪全球的大模型熱,各方資金蜂擁而入。

ChatGPT能夠成爲火爆全球的頂流模型,除了自身強大的創新能力,也離不開強大算力的支持,這背後是耗資數億美元,用了英偉達數萬顆A100的微軟超級計算機。

一個有意思的現象是,打造出ChatGPT的明星公司OpenAI依然處於燒錢賺吆喝的鉅虧狀態,提供核心算力芯片的英偉達卻是賺得鉢滿盤滿,今年來股價已經翻番,市值破萬億美元。

可以說,隨着大模型時代到來,給整個產業鏈都帶來了新的挑戰和機遇,甚至有人驚呼第四次科學技術革命到來了。

AI大模型背後的海量數據,需要有強大的算力作爲支持,這自然也推動了雲計算的升級迭代。

某種程度上,大模型之爭說到底也是雲服務能力之爭。在市場明顯過熱的情況下,行業也開始有一些更加理性的聲音傳出,不需要這麼多大模型,真正能夠爲產業所用纔是正解。

如何解決算力成本高企後,大模型訓練本身帶來的高昂成本,讓很多企業想用而不敢用的問題?站在新的生產力時代的起點,從雲入端,數字基建服務商應該怎麼部署?

時代正在呼喚新一代數字基礎設施。尤其是大模型的爆發,對於算力基礎設施提出更高的要求,應儘可能地用更高效的異構基礎設施資源,來支持不同的算力需求。

01

大模型下的數字基礎設施

早在數年前,就有不少企業逐漸意識到數智化升級的重要意義,但隨着近年來數智轉型逐漸進入“深水區”,企業對此的需求也發生了一些明顯變化。

這些變化集中體現在三個方面。

從轉型意識來看,此前企業推動自身的數字化改造,幾乎都是從局部切入,更多是爲了適應社會發展的被動數字化;而時至今日,這種觀點已發生了翻天覆地的變化,由點及面,越來越多企業開始主動求變,從全局出發,希望藉助數字化來提升增長韌性。

從業務部署來看,在資源管理方面,多數企業原來只需單純管理IaaS,現在則需要對全棧資源做統一管理;在安全防護方面,他們更希望在做推進數字化建設的同時,根據業務場景制定一體化安全體系,保障業務安全穩定運營。

從“上雲”模式來看,企業“上雲”整體呈現“多態、多地、多芯、多棧”這四種形態,在雲端AI進化到顯著的訓練推理、雲桌面、圖形圖像設計等多元化場景階段時,雲上異構成爲最能發揮AI效率的計算方式,但這也給數字化建設提出了更爲嚴峻的挑戰。

一方面要保證靈活性,在混合多雲架構下,讓多種計算資源能夠進行良好的協作;另一方面,需要強調安全性,能夠廣泛支持各類芯片、雲平臺及不同異構基建,提升中國企業的經營韌性。

這與京東雲對新一代數字基礎設施的理解不謀而合,曹鵬認爲,新一代數字基礎設施至少應該具備三個特徵。

首先,是融合開放。從實際應用來看,一個數字基礎設施僅依靠單一架構,已很難支撐整個社會的運轉。市場需要更加融合、更加開放的基礎設施,這樣才能屏蔽很多客戶差異化的需求,把更多異構的硬件納入到設施管理中來,對不同行業、不同應用提供很好的兼容性。

數字基礎設施融合方法,要做到的就是三“多”——“多雲、多芯、多活”,這個做到廣泛支持各類芯片架構,包括GPU、CPU、NPU,包括兼容各類公有云和私有云平臺,這樣才能支持下一步的智能化和產業化的發展。

其次,是極致的技術降本。大模型和數字化對於基礎設施需求越來越大,技術密度、網絡帶寬和存儲需求,都呈幾何級增長,算力成本變成非常重要的因素,有能力把算力成本降得更低,這是作爲一個好的基礎設施應該考慮的。

“比如京東雲新一代分佈式存儲平臺雲海,能夠做到千萬級的IOPS,延遲達到百微秒以內,通過存算分離技術架構,節省成本超30%。比如軟硬一體虛擬化引擎京剛,將算力虛擬化損耗降至零,作爲數據中心級DPU引擎,將存儲IOPS、網絡轉發性能均提升50%。”

第三,是安全可靠。隨着智能化、信息化、數字化的推薦,信息安全也變得愈發重要。保證信息是安全、不被泄露,保證業務能夠高質量地、連續地發展,同樣值得重視。“京東雲在服務上可以做到99.995%,在存儲上的可靠性可以做到12個9,這都是全球頂尖的水平。”

02

統一邏輯的“一朵雲”

大模型的如火如荼,爲產業發展帶來更多可能性,這也是互聯網大廠、科創公司爭搶佈局的根本原因。

而另一個擺在面前的現實問題是計算硬件的性能提升門檻越來越高,AI算力短缺問題極有可能是一個長期存在的問題。

對於大多數企業而言,想要更高效地解決算力瓶頸等問題,爲自身數智化建設提供更充足、普惠且安全的AI算力,或許還有一條更爲“經濟”的途徑可走。

這裡“更經濟的途徑”,對應的是數字基礎設施提供者的“AI普惠”相互對應,即基於穩定的雲計算基礎設施,將強大的AI算力和簡單上手的技術工具,輸送到企業特別是中小企業手中。

尤其是對中小企業來說,可以把這塊成本省下來,把服務交給京東這類能提供效率高且安全的雲的大廠。

格局一打開,選擇就更多了。

從需求匹配的角度來看,在“萬物皆可上雲”時代,混合多雲確實是必要的,也逐漸成爲主流趨勢之一。報告顯示,有高達85%的企業使用兩個或多雲平臺,有25%的企業至少使用五個雲平臺。

一雲獨放不是春,多雲混合春滿園。

從用戶端來說,採用“多雲”架構,既可以避免與單一雲廠商技術與業務綁定帶來的風險加劇,又可以構建更加靈活、性價比更高、有主導權的混合雲結構,來解決存量、增量兩方面問題。

如何通過統一邏輯“一朵雲”實現更敏捷、更開放、更高性價比和一致體驗的雲架構,正是混合多雲技術要解決的問題。

而京東雲對此頗有心得。從創立之初起,京東雲就支撐着京東大生態的運行,京東各條線業務從“上雲”那一刻起,就生長出一個混合多雲的環境,這也是一個天然的超大規模混合多雲實踐場。

按照京東雲事業部副總裁劉辰的介紹,京東的混合多雲平臺是以應用爲中心的雲設計範式,與以資源爲中心的傳統公有云、專有云平臺不同,混合多雲平臺讓算力去找應用,讓算力去找數據,實現算力按需按時供給和數據流動。

簡言之,就是在落地層面實現多雲、多芯、多活。這也是新一代數字基礎設施三大典型特徵最重要的體現。

在多雲方面,京東通過統一的雲抽象層“雲艦”,打通分佈在公有云、專有云、IDC和邊緣節點的物理基礎設施,打通Underlay和Overlay網絡,數據和業務應用,並實現統一的運維運營和管理體系,從統管到統建。

在多芯方面,除了全面兼容Intel,AMD,ARM架構的CPU,和全棧國產化軟硬件體系基礎上,通過京東集團生產級業務的國產化應用落地的打磨,京東雲積累了從硬件到操作系統,基礎數據庫和中間件,以及應用運行時的全棧調優經驗,實現生產級國產化可用。

在多活方面,雲艦與現在的一雲多芯的雲架構,以單元化技術,實現同一個應用跨芯片進行多活部署和調度,一部分流量運行在傳統x86雲平臺,另外一部分流量運行在國產化平臺,不斷優化適配性能,穩定性和兼容性,實現應用在國產化環境的真替真用。

成本是不容忽視的另一個重點,京東雲給出的解決方案是“異構算力池化”。

一方面支持本地的GPU/NPU虛擬化,容器化,讓AI應用無需修改代碼就可以調用遠端的GPU、NPU資源,實現數據中心級別的池化管理和彈性調度,並與現有云平臺打通,實現CPU,GPU協同調度;另一方面,同時兼容多種AI訓練框架,並支持多種AI推理任務混合部署。

如此看來,京東雲所打造的統一邏輯的“一朵雲”,不僅更適用於當下企業數智化轉型的需要,更重要的是,其這種通過精益調度爲企業降本增效的功效,已成爲新一代數字基礎設施的一類代表能力。

03

走向產業是必然

2023年開年以來,以BATJ爲代表的互聯網大廠,以商湯科技、科大訊飛等爲代表的科技公司,以及各類初創企業,紛紛加入大模型領域。京東也宣告將在7月13日正式發佈自己的大模型,以及京東大模型與產業場景結合的最新進展。

儘管公衆對於AI的關注已達到了一個新的高度,但從大市場的動作來看,大多數互聯網企業、科技企業等在錘鍊大模型時,大多似乎都是直接對標OpenAI的GPT-4,坦白講,鮮有顯著的差異化價值。

大模型想要“研以致用”,走向產業已是一種必然。

但在產業應用的過程中,大模型企業可能要思考的是:一來,技術快速溢出,但算力基礎設施難以同步跟進,如何解決越來越大的算力供需的“剪刀差”;二來,千行百業的落地條件和能力稟賦各有所不同,如何結合行業週期、行業痛點、個體特徵等提供服務方案。

這就要求數字基礎設施服務商,必須擁有豐富的服務實體產業經驗,可以及時洞察產業客戶的需求,並基於此進行技術和產品的更新迭代,讓每一個技術創新都能切實解決真實場景下各類用戶最在意的真問題。

這就是京東雲不斷聚焦於“產業”方向的關鍵所在。就實踐這一層,京東雲已通過“服務練兵”,驗證了產業大模型真正走向應用的可能與商業價值。

將京東雲在生態內的極限考驗平移至大市場,在對外部企業提供數字服務支持時,京東雲同樣顯得格外遊刃有餘。

這不得不提到京東雲在2022年與央視春晚的紅包合作。在沒有額外增加一臺服務器的基礎上,京東雲騰挪調度現有資源,包括遍佈全國的70多座數據中心、近300萬個容器、超1000萬覈算力資源,通過16次秒級精準調度資源,支持了那場超大流量洪峰的全球節目。

此外,國家電投、中化能源、蘇州農商行等重量企業都進入了京東雲的“朋友圈”。這些客戶基礎資源龐大,管理複雜,遷移困難,業務龐雜,而京東雲在他們原有云資源環境的基礎上,完成混合多雲部署,爲各業務部門之間跨系統、跨業務單元提供一體化協同管控。

截至目前,京東雲已服務了超95%的大型央企、2048家大型企業、914家金融機構和超207萬家中小微企業。

“對京東來說,技術永遠只是手段,而不是目的,我們發展大模型,最終還是希望將產業實踐中凝聚出的數字化能力,開放出來服務社會,不斷提升產業效率。”曹鵬如是說。

曾幾何時,人們認爲做大模型像是一場短跑比賽,拼的是眼力和速度,只要看得準時機、提前入局、快速投入,就能狂飆突進甚至成功衝刺。

現實情況已讓各方愈發深刻地意識到,大模型走入千行百業,實際是一場跨欄比賽,要跨過:算力資源的性價、基礎模型的選擇、業務場景的結合、開發工具的完備、商業模式的摸索、生態資源的支持等。

只有這樣,纔有可能更好地面對大模型時代的到來。(完)