阿里雲大模型空前降價,開始超摩爾定律的狂奔

讓更便宜的大模型,成爲全社會創新加速的基礎設施。

作者 | ray

編輯 | 靖宇

5 月 21 日,武漢光谷萬豪,阿里雲「AI 智領者峰會」。

抵達現場後,與會嘉賓發現一絲不同尋常,一個已經在一個月時間裡相繼在杭州、北京、西安舉辦過的系列峰會,這次阿里雲智能集團資深副總裁、公共雲事業部總裁劉偉光親自來了——阿里雲這次,可能要搞個大的。

果不其然,發佈會開始十多分鐘,劉偉光便聊起了一個硬件領域老生常談的話題「摩爾定律」。

極客最高級的致敬是「show me code」;商業教父最高級的致敬,是把他的觀點,變成行業定律,摩爾定律就是其一。

1965 年,這位英特爾聯合創始人的一句話,「單位面積上,晶體管的密度,每隔 18 個月就翻一番」,主導了迄今半導體行業 60 多年的發展。

然而,伴隨摩爾故去,摩爾定律在微觀晶體管領域,也逐漸褪色。馮諾依曼架構的原始限制、量子隧穿成爲擺在眼前的攔路虎。

那將觀察角度轉爲宏觀,或者轉爲用戶導向呢?這是阿里雲思考了很多年的問題。

從用戶角度出發,晶體管密度只是其次,摩爾定律最根本的意義是在於每過 18 個月,用戶就能以相同價格買到翻倍的算力。

但很顯然,實現越來越便宜的算力,不止有晶體管密度這一條路。

而公共雲與AI,或許就是阿里雲超越摩爾定律的嘗試。

01

AI 推理成本,

開始指數級下降

「我覺得 AI 推理成本只有每年有十倍甚至百倍的降低,才能真正推動行業各行各業的 AI 應用的爆發。」

劉偉光話一出口,臺下的人面面相覷:目前中國 80% 的科技企業,一半大模型公司都跑在阿里雲之上。每年百倍,也就意味着,阿里雲要一步將國產大模型的使用成本打到地板價。

緊隨其後,阿里雲官宣,旗下 9 款核心商業化及開源系列模型將全數降價,且都已經可以通過阿里雲百鍊官網開通使用。其中,阿里雲對標 GPT-4 級別的長文本模型 Qwen-Long,降價至 GPT-4 價格的 1/400,全球最低。

Qwen-Long 是通義千問的長文本增強版模型,主要適用最消耗 token 的長文本場景,上下文長度最高達 1 千萬,可處理約 1500 萬字或 1.5 萬頁的文檔。

此次官宣後,其 API 輸入價格從 0.02 元/千 tokens 降至 0.0005 元/千 tokens,直降 97%。這意味着,1 塊錢可以買 200 萬 tokens,相當於 5 本《新華字典》的文字量。相比之下,國內外廠商 GPT-4、Gemini1.5 Pro、Claude 3 Sonnet 及 Ernie-4.0 每千 tokens 輸入價格分別爲 0.22 元、0.025 元、0.022 元及 0.12 元,均遠高於 Qwen-long。同時,Qwen-Long 輸出價格也從 0.02 元/千 tokens 降至 0.002 元/千 tokens,降幅 90%。

不久前發佈的通義千問旗艦款大模型,權威基準 OpenCompass 上性能追平 GPT-4-Turbo 的 Qwen-Max,同樣參與此次降價,API 輸入價格降至 0.04 元/千 tokens,降幅達 67%。

其他開源模型上,Qwen1.5-72B、Qwen1.5-110B 等 5 款開源模型的輸入價格也分別直降 75% 以上。

從應用範圍最廣,到性能最佳,阿里雲拿出的,都是最重磅的產品,決心可見一斑。

02

阿里雲的決心:成爲大模型

爆發的基礎設施

爲什麼降價?

答案就寫在這次活動的主題中:「讓天下沒有難做的 AI 應用」,成爲大模型時代的基礎設施。

據多位內部人士表示,AI 的定位在阿里雲已經上升到前所未有的戰略高度。在多次內部會上,阿里雲高管都將 2024 的 AI 類比 2017 年的短視頻與 2012 年的移動支付。2012 年到 2013 年,3G 過渡到 4G 過程當中,中國的移動支付兩年增長了 800%;在 2017 到 2018,多家短視頻的爆發,實現了整個中國短視頻呈現 8.5 倍的增長。

未來 AI 的爆發速度,也將遠遠超出所有人的想象——現在,中國所有大模型公司 API 的日調用量不超過一個億,年底這一數據量將達 100 億次,增長百倍。

爲達成「AI基礎設施」這一目標,阿里雲給自身的定位是做到四有:

一有,有實力提供全球領先的模型服務。不久前,OpenAI 的 Sam Altman 轉發了 Chatbot Arena 榜單來印證 GPT-4o 的能力,其中全球排名前 20 的模型中,三款通義千問代表中國模型實力躋身世界前列。

Sam Altman 在 X 上轉發 GPT-4o 測試成績|X

二有,有能力建設國內最大的推理集羣。全球三十處公共雲地域分佈、共計 89 個可用區,可做到 4X 推理吞吐提升,8X 計算資源節省,以及分鐘級快速動態擴容。

三有,有態度堅持開放、持續開源。作爲首個提出 MaaS(模型即服務)理念的雲廠商,目前,瞄着讓模型更好的服務的目標,阿里雲百鍊模型服務平臺已可以調用衆多三方及垂直領域大模型、魔塔社區則是中國最大的模型社區,擁有 4500+模型總數以及 500 萬+用戶數;通義持續開源全模態全尺寸模型家族,共計 700 萬開源模型下載量。

四有,有信心,迎接 AI 應用的爆發。財報數據顯示,同比去年,阿里雲的 AI 相關收入同比三位數增長。

而與阿里雲的「四有」,形成對比的,則是行業內的「兩貴」。

一方面是開發以及微調的人力成本貴。大模型人才稀缺已是業內共識,某家消費電子巨頭曾算了一筆賬,大模型研發方向,公司平均平均稅後人才成本爲 100 萬元。而對普通企業來說,即便跳過基模這一步,採用開源大模型微調,成本同樣高企。

另一方面則是硬件成本「硅谷卡貴」。一個創業公司,擁抱大模型,起步價實買 50 臺 GPU 服務器,甚至 100 臺、200 臺乃至更大尺寸的集羣。如果對標全球頂級水平,訓練一個 100B 規模的 LLM,以 Falcon 系列模型爲例,其資源消耗量 3.5 萬億 token,約 4096 個 A100 組成的集羣,訓練時長約 70 天。其中,一張 A100 的價格,通常在一萬美金乃至更多。而構建集羣,除了 GPU 的採購,還有包括軟件部署、網絡費用、電費、運維成本,以及不斷投入的試錯成本,成本遠非普通企業可以承受。

那麼,對阿里雲來說,接下來的核心目標,就是如何用阿里雲的「四有」,解決AI爆發遇到的「兩貴」。

03

決定 API 價值的要素:

技術高度+普惠能力

不難發現,本次活動,阿里雲的重點有二,其一是強調API價值,其二是降價普惠的能力。

API很好理解,互聯網發展沒必要重複造輪子,大模型發展,也不是人人都需要從基模開始。通過 API 與公共雲相組合,不僅可以降低大模型開發的人力成本,更是通往大模型普惠的必經之路。

一方面,雲廠商天然的開放性,能爲開發者提供私有部署所不具備的豐富模型和工具鏈。阿里雲百鍊平臺上匯聚通義、百川、ChatGLM、Llama 系列等上百款國內外優質模型,內置大模型定製與應用開發工具鏈,開發者可以便捷地測試比較不同模型,開發專屬大模型,並輕鬆搭建 RAG 等應用。從選模型、調模型、搭應用到對外服務,一站式搞定。

另一方面,雲上更方便進行多模型調用,並提供企業級的數據安全保障。阿里雲可以爲每個企業提供專屬 VPC 環境,做到計算隔離、存儲隔離、網絡隔離、數據加密,充分保障數據安全。目前,阿里雲已主導或深度參與 10 多項大模型安全相關國際國內技術標準的制定。

降價背後的邏輯,則是具備普惠的能力。

在 PC 時代,主導行業不斷髮展的是安迪-比爾定律。其中,安迪代表的是英特爾賣 CPU 的,比爾則是微軟,做 Windows 操作系統的。兩者組合,隨着操作系統爲代表的軟件的體量日益龐大,用戶必須定期更新迭代新的硬件。

換到 AI 時代同理,大模型發展越好,雲計算等算力的需求越高。「生成式 AI 所依賴的算力不僅僅是 CPU 和簡單的技術帶來的策略,更多是一個大規模集羣,大規模 GPU 集羣帶來算力的基礎,包括網絡存儲背後能力的提升。所以生成式 AI,無論是推理和訓練,逐漸更多的走向雲端,再一次的點燃了公共雲的爆發」劉偉光直言。

而這次空前降價的底氣,則是雲計算本身超越摩爾定律的特性。

過去,摩爾定律主導單位面積下,芯片晶體管的密度 18 個月翻番。相同算力,用戶的使用成本 18 個月降一半。

現如今,晶體管的摩爾定律失效,但公共雲的技術紅利和規模效應,依然能帶來算力成本的繼續優化。一個例證是,阿里雲過去十年,算力成本降低 80%,存儲成本降低 90%。

具體到 AI 方向,阿里雲基於自研的異構芯片互聯、高性能網絡 HPN7.0、高性能存儲 CPFS、人工智能平臺 PAI 等核心技術和產品,構建了極致彈性的 AI 算力調度系統,結合百鍊分佈式推理加速引擎,大幅壓縮了模型推理成本,並加快模型推理速度。

也是因此,即便同樣的開源模型,在公共雲上的調用價格也遠遠低於私有化部署。以使用 Qwen-72B 開源模型、每月 1 億 tokens 用量爲例,在阿里雲百鍊上直接調用 API 每月僅需 600 元,私有化部署的成本平均每月超 1 萬元。

至此,大模型的爆發纔剛剛開始,但如何打好這場持久戰,阿里雲的基礎設施的鋪墊,已然悄然醞釀完成。

阿里雲開啓的連鎖反應

事實上,阿里雲開始幅度如此激進的降價,不會是故事的結尾。

就在今天,上午阿里雲大模型大幅降價後,下午隨即百度兩款輕量型主力大模型宣佈免費。雖然這和阿里雲降價的模型能力並不完全匹配,看起來是一種聲勢上的快速應對,但毫無疑問,阿里雲開啓的這一波大模型能力普惠將引發進一步的業界連鎖反應。

對於應用創新,大模型 API 成本的下降,甚至開始可以接近免費試用,真正跑起來再算錢,對激發應用創新是一件好事。過去,中國在實體經濟,有基建狂魔稱號,「要致富先修路」也成爲家喻戶曉的常識。其背後的底層經濟規律是,基礎設施的價格與社會的創新總量,之間是一個微妙的蹺蹺板結構:

只有基礎設施的價格下降,創新纔會如成熟的蒲公英,藉助風口,把種子播撒向遠方。過去實體經濟如此,期待AI時代亦如此。

*頭圖來源:視覺中國

本文爲極客公園原創文章,轉載請聯繫極客君微信 geekparkGO

上週是 AI 行業瘋狂的一週。OpenAI、Google 先後發佈 GPT-4o、Project Astra 等「AI 全家桶」;字節的「豆包」大模型家族、騰訊的混元大模型集體亮相。不論是國際大模型明星公司,還是互聯網大廠,他們都正在朝着 AI 狂奔。但是,對於中小公司來說,能像當年「上雲」一樣一鍵部署 AI 的方案,還不多見。

5月22日(週三)20:00,極客公園創始人 & 總裁張鵬將對話矩陣起源創始人 & CEO王龍,聊聊傳統的 IDC 如何轉型到 AIDC,以及通往 AGI 的路爲什麼繞不開「數據+算力」?

歡迎預約直播~