AI算力大戰開啓:英特爾AI芯片性能超越H100,谷歌雲推出最強ARM芯片|鈦媒體AGI

北京時間4月10日凌晨,美國亞利桑那州Intel Vision 2024會議上,芯片巨頭英特爾(Intel)發佈性能最強的新一代Gaudi3 AI 加速芯片,以及全新的下一代英特爾至強6處理器等產品。

其中,英特爾Gaudi 3 AI芯片採用臺積電5nm工藝,支持128GB HBMe2內存。相比上代產品,英特爾Gaudi 3帶來4倍(400%)的BF16 AI計算能力提升,1.5 倍的內存帶寬以及 2 倍的網絡帶寬提升。同時,在AI模型算力中,相比於英偉達H100 GPU,Gaudi3 AI芯片的模型訓練速度、推理速度分別提升40%和50%,平均性能提高 50%,能效平均提高40%,而成本僅爲H100的一小部分。

英特爾預計,Gaudi 3將於2024年第二季度起出貨,戴爾、惠普、聯想、超微電腦等企業將成爲首批客戶。

與此同時,今晨舉行的谷歌雲年度大會Cloud Next 2024上宣佈推出一款基於ARM架構的服務器芯片Axion,其性能比通用ARM芯片高30%,比英特爾生產的x86最新芯片性能提高50%。谷歌旨在減少對英特爾和AMD x86芯片的依賴。

全球圍繞 AI 算力戰爭已經拉開帷幕。

“現在的半導體競爭是一場產業戰爭,也是一場全面的國家戰爭。”韓國總統尹錫悅4月9日宣佈該國全面押注 AI 半導體發展,投入9.4萬億韓元(約合500億元人民幣),以幫助韓國成爲與中國、美國並駕齊驅的全球三大AI半導體國家之一。

英特爾突襲英偉達H100,新AI芯片訓練快40%,推理快50%

就在深夜,英特爾CEO帕特·基辛格(Pat Gelsinger)手舞足蹈地亮出了最新AI芯片——Gaudi3。

新一代Gaudi 3 AI加速器專爲高性能、高效率的生成式 AI 計算而構建,每個加速器都具有獨特的異構計算引擎,由 64 個 AI 定製和可編程TPC和 8 個 MME 組成,每個Gaudi 3 MME 都能夠執行 64000個並行運算,支持128 GB HBMe2 內存容量、3.7 TB 內存帶寬和 96 MB 板載靜態隨機存取內存 (SRAM) 。

同時,每個Gaudi 3當中都集成24個200 Gb以太網端口,提供靈活且開放標準的網絡。而Gaudi 3 的PCIe 功率爲600w,帶寬爲每秒 3.7TB。

性能方面,模型訓練層面,Gaudi3比英偉達H100快40%;推理層面Gaudi3比英偉達H100快50%。即便相比最新英偉達H200,Gaudi3 AI芯片的推理速度竟然也提升了高達30%。

英特爾CEO帕特·基辛格(Pat Gelsinger)

實際上,隨着ChatGPT爆火,AI 模型、數據、算力基礎設施成爲生成式 AI 技術發展的三大要素。

據Gartner數據顯示,2024年,企業在生成式 AI 方向上預期支出達400億美元,到2027年這一數據增至1510億美元。與此同時,到2026年,企業對生成式 AI 使用程度達80%,同時至少有50%的邊緣計算部署將與AI、機器學習(ML)等方向有關。

然而,AI 技術的全部潛力並沒有完全釋放出來。僅10%的企業組織去年推出面向生產的生成式 AI 方案;同時,有46%的的專家指出,基礎設施是將大模型產品化的最大挑戰。

因此,英特爾希望能夠利用長期的 AI 技術積累,通過開放生態系統的力量,乘上 AI 熱潮。與英偉達部分類似,英特爾也將提供一整套 AI 算力基礎設施方案,從而“解鎖”企業 AI,推動生成式 AI 的廣泛應用和快速商業化,有望幫助企業應對 AI 項目時所面臨的挑戰。

基辛格在會上表示,到2030年,半導體市場規模將達1萬億美元,而 AI 是其中的主要推動力。

從整體路線圖來看,AI PC、Edge AI(邊緣)、Data Center AI(數據中心)將成爲英特爾三大重要的計算生態系統,比英偉達覆蓋面積更廣,加上其開放、可擴展的軟件和算法特性,廣泛適用於多個 AI 領域,從而推動英特爾持續爲企業客戶打造全新 AI 方案。

具體到技術產品層面,除了英特爾Gaudi3之外,此次開幕活動上還公佈了其他四個方向的重要進展:

1、全新英特爾至強6處理器品牌,應用於數據中心、雲和邊緣場景。

其中,與第二代至強處理器相比,配備能效核(此前代號爲Sierra Forest)的全新至強6處理器每瓦性能提高2.4倍,機架密度提高2.7倍,客戶能以近3:1的比例替換舊系統,大幅降低能耗,預計將於2024年第二季度推出;而配備性能核的英特爾至強6處理器,可將下一個令牌(token)的延遲時間最多縮短6.5倍,能運行700億參數的Llama2模型,預計不久後推出。

2、預覽下一代英特爾酷睿Ultra處理器。英特爾宣佈將推出下一代酷睿Ultra客戶端處理器家族(代號Lunar Lake),將具備超過100 TOPS平臺算力,以及在神經網絡處理單元(NPU)上帶來超過46 TOPS的算力,從而爲下一代AI PC提供強大支持。據悉,英特爾預計將於2024年出貨4000萬臺AI PC設備。

3、面向網絡互連層面的新品部署。與NVLink一樣重要,通過超以太網聯盟(UEC),英特爾公佈面向AI高速互聯技術(AI Fabrics)開放技術的以太網解決方案,利用高速互聯技術支持AI模型訓練和推理,產品組合包括英特爾AI網絡連接卡(AI NIC)、集成到XPU的AI連接芯粒(Chiplet)、基於Gaudi加速器的系統,以及一系列面向英特爾代工的AI互聯軟硬件參考設計。

4、全面更新的邊緣計算和Tiber業務組合。英特爾還發布新的Edge芯片產品,包括酷睿TM Ultra、酷睿TM、凌動處理器以及面向Edge的英特爾ArcTM GPU,預計所有新品將於本季度上市,應用於包括零售、工業製造、醫療保健等關鍵領域,並將於今年獲得英特爾Tiber邊緣平臺的支持。另外,英特爾還發布Tiber業務解決方案組合,以簡化企業對生成式 AI 軟件服務的部署工作,預計Tiber方案將於今年第三季度全面推出。

英特爾披露,截至目前,英特爾邊緣計算處理器銷量達2億塊,已邊緣部署超過9萬個解決方案。

另外,英特爾還宣佈聯合Hugging Face、RedHat、SAP、VMware等15家公司,將共同創建一個開放、多供應商的生成式AI系統平臺,通過RAG(檢索增強生成)技術,提供運行大量現存專有數據源得到增強版開放大模型。

英特爾強調,公司不僅將提供包括硬件、軟件、框架和工具,而且希望設備製造商、數據庫提供商、系統集成商、軟件和服務提供商等參與其中,推動英特爾AI開放生態系統的構建,以及將生成式AI技術進行場景落地。

總體來說,基於英特爾5nm Gaudi3 AI芯片,以及至強6處理器和軟件棧,該公司正逐步構建 AI 領域的算力基礎設施生態,全面挑戰英偉達以及現有 AI 芯片市場格局。

英特爾方面去年7月對鈦媒體App表示,市場需要替代品。客戶非常歡迎英特爾Gaudi方案在向大衆部署 AI 方面發揮重要的領導作用。“幾十年來,英特爾一直致力於把新的技術普及、普惠到各行各業。通過降低進入門檻,提高市場參與度,從而加快創新速度。”

基辛格在會上強調,“創新技術正在以前所未有的速度發展,每家公司都在加速成爲AI公司,這一切都需要半導體技術提供支持。從PC到數據中心再到邊緣,英特爾正在讓AI走進千行百業。”

爲減少對英偉達依賴,谷歌推出ARM服務器芯片

與微軟、亞馬遜一樣,谷歌也推出了多款自研芯片,以減少對英偉達GPU芯片的依賴。

美東時間4月9日週二,谷歌在今年的年度雲計算大會Cloud Next 2024上宣佈推出一款基於Arm架構的數據中心芯片Google Axion,以及更新TPU v5p芯片。

谷歌表示表示,Google Axion處理器基於Arm Neoverse V2 CPU構建,以Titanium爲基礎,性能比通用ARM芯片高30%,而且比英特爾生產的當前一代 x86芯片高50%。預計Axion用於多種谷歌服務,並在“今年晚些時候”向公衆開放。

谷歌雲副總裁兼計算和機器學習基礎設施總經理 Mark Lohmeyer 表示:“我們正在讓客戶輕鬆地將現有工作負載轉移到 ARM。Axion 建立在開放基礎之上,在任何地方使用ARM的客戶都可以輕鬆採用 Axion,而無需重新架構或重新編寫應用程序。”

“谷歌推出的新型 Axion CPU 標誌着交付定製芯片的一個重要里程碑,該芯片​​針對谷歌的基礎設施進行了優化,並構建在我們的高性能 Arm Neoverse V2 平臺上。數十年的生態系統投資,再加上 Google 的持續創新和開源軟件貢獻,確保爲在各地運行 Arm 的客戶最重要的工作負載提供最佳體驗。”Arm 首席執行官 Rene Haas表示。

事實上,Axion 只是衆多定製發一份芯片中的最新產品。自2015年以來,谷歌已經發布了五代張量處理單元(TPU);同時,2018年,谷歌發佈了第一個視頻編碼單元 (VCU),視頻轉碼效率提高了33 倍;另外,2021年,谷歌通過投資“片上系統”(SoC) 設計,加大了定製計算的投入,併發布了用於移動設備的三代Tensor芯片中的第一款。

如今,谷歌推出新的芯片意味着,該公司正在追趕亞馬遜和微軟這些雲領域競爭對手的步伐。亞馬遜和微軟2021年就已經推出Arm架構的CPU,作爲提供差異化計算服務的一種方式。而谷歌之前爲YouTube、AI及其智能手機推出過定製芯片,但還沒有打造過CPU。

具體來說,Axion將適用於一系列任務,包括支持谷歌的搜索引擎和 AI 相關的工作。谷歌表示,該芯片可以通過幫助處理大量數據併爲數十億用戶部署服務,在AI領域發揮重要的支持作用。同時,未來谷歌逐步轉移到基於Arm雲服務器用例上使用,Datadog、Elastic、OpenX 和 Snap都計劃採用 Axion。

除了Axion之外,谷歌還宣佈全面推出 TPU v5p,用於訓練和推理的最強大、可擴展且靈活的 AI 加速器,其計算能力是上一代的 4 倍(400%)。

谷歌CEO桑達爾·皮查伊表示,生成式 AI的進步需要強大的底層基礎設施。谷歌 AI 超級計算機結合了我們的 TPU、GPU、AI 軟件等,爲訓練和服務模型提供性能和成本優勢。如今,領先 AI 公司和 Google Cloud 客戶(例如 Anthropic、AI21 Labs、Contextual AI、Essential AI 和 Mistral AI)正在使用其基礎設施。

數據顯示,雖然廣告依然是谷歌最大收入源,但云計算的增長更快,在谷歌的收入中佔比不斷提高,已接近佔公司總收入的11%。據Gartner估算,2022 年,谷歌佔雲基礎設施市場 7.5% 的份額,而亞馬遜和微軟合計控制着 62% 左右的份額。

谷歌表示,現在已經有超過 90% 的 AI 獨角獸企業在使用谷歌的計算資源、模型和開發環境。

如今,谷歌成爲繼微軟和亞馬遜之後,第三家用ARM架構推出數據中心CPU的科技巨頭,這顯示了新的趨勢。而且,谷歌還利用TPU優勢,全面提供服務器和數據中心閉環服務,降低英偉達、英特爾、AMD芯片的依賴。

有評論稱,谷歌開發新芯片是在 AI 競賽白熱化之際減少對外部廠商的依賴。不過,谷歌的官員並沒有將芯片新品視爲一種競爭之舉。谷歌負責自研芯片業務的副總Amin Vahdat說:“我覺得這是做大蛋糕的基礎。”

從整體來說,Google Next 2024上展現了整個谷歌雲構建的 AI 開放和垂直優化技術棧。

那麼,前有谷歌、微軟、亞馬遜“造芯”,後有英特爾“彎道超車”,英偉達真的危險了嗎?

2023年12月初,AMD高調推出了MI300系列產品。據介紹,MI300X芯片擁有超過1500億個晶體管,內存密度是目前英偉達H100的2.4倍,內存帶寬是其1.6倍。AMD首席執行官蘇姿豐稱,這款新芯片在訓練 AI 軟件的能力方面與英偉達的H100相當,並且在推理方面表現得更好,不過這一說法也未得到獨立驗證。

今年3月底,英偉達正式發佈了新一代人工智能計算芯片B200。英偉達CEO黃仁勳表示,B200 GPU的AI運算性能在FP8及新的FP6上都可達20 petaflops,是前一代H100運算性能的2.5倍。

如今,隨着Gaudi 3的正式發佈,當前AI芯片市場呈現出英偉達B200、AMD MI300系列和英特爾Gaudi 3"三巨頭"競爭的格局。英偉達在AI芯片領域"一家獨大"的局面面臨來自另外兩家廠商的挑戰。

不過,從黃仁勳角度來看,英偉達的生態系統很穩定,在當前AI算力"軍備競賽"中,英偉達依舊暫時是市場的佼佼者。

黃仁勳前段時間這段話其實表達的非常明確:“數據中心需要你運營它。購買和銷售芯片的人考慮的是芯片價格。運營數據中心的人考慮的是成本,我們總擁有成本(TCO)非常好。即使競爭對手芯片是免費的,他們也不如我們,客戶也不會買。我們的目標是增加更多的價值。但這背後需要很多努力,我們必須不斷創新、我們不能把任何事情視爲理所當然、我們有很多競爭對手。”

事實上,AI 芯片是一個不斷向前“奔跑”的高技術行業。它沒有壟斷,只有不斷創新提供更大價值,纔有可能讓企業持續保持領先地位。因此,無論是英偉達還是英特爾,他們都有非常強大的市場競爭力,也都有望成爲 AI 加速計算市場的“領先者”。

如今,在服務器市場,AMD正在逐漸蠶食該公司的市場份額。據市場調研機構Mercury Research所公佈的2023年第四季度AMD處理器市場份額統計數據,AMD EPYC已經拿下了23.1%服務器市場份額,份額佔比再次擴大。儘管EPYC作爲通用處理器,算力上不如GPU加速器,不過該產品可與GPU加速器、AI加速器等協同工作,實現效率的最大化。

而全新英特爾 AI 芯片Gaudi,預計將不太會在中國大陸市場銷售。但從全球來看,它是否真的能如其所言的,憑藉性能優勢、極具競爭力定價優勢而佔領更大的市場份額,一切還有待時間的檢測。

(本文首發鈦媒體App,作者|林志佳)