如何獲得足夠的 HBM,並將其堆疊的足夠高?
任何新的內存方法都必須具備可製造性與成本效益,方能被採用。
業界可通過多種方式擴展計算引擎的內存容量與帶寬,以更好地驅動人工智能(AI)和高性能計算(HPC)工作負載,但目前所能做到的仍有不足。
如近期與 Microsoft Azure、AMD、Cerebras Systems 和 Ayar Labs 的專家共同舉辦的網絡研討會上所提及,任何新的內存方法(當前有諸多有趣的光學 I/O 選項)都必須具備可製造性與成本效益,方能被採用。
此乃當前 HBM 瓶頸之緣由。少數昂貴的 HPC 和 AI 工作負載受限於內存帶寬,將大量並行 HBM 內存堆棧置於極靠近計算引擎之處。HBM 無法同時提升內存容量與帶寬,僅能二者擇其一。
HBM 內存較常規 DRAM 及 GDDR(對於帶寬關鍵的計算引擎而言)更爲優越,但即便美光科技加入 SK 海力士與三星的 HBM 陣營,全球亦無法生產足量產品以滿足需求。這導致高端計算引擎(及所需的中介層封裝)短缺,使市場扭曲,造成原始計算與內存容量、帶寬間的效率低下與不平衡。
此前已有諸多文章詳細探討此問題,在此不再贅述。當前及不久將來推出的 GPU 和定製 AI 處理器可輕鬆擁有 2 倍、3 倍甚至 4 倍的 HBM 內存容量與帶寬,以更好地平衡其巨大計算量。同一 GPU 內存翻倍時,AI 工作負載性能幾近提升 2 倍,內存即爲問題所在,或許所需並非更快的 GPU,而是更多內存以滿足其需求。
鑑於此,考量 SK 海力士近期兩份公告。SK 海力士爲全球 HBM 出貨領先者,亦是 Nvidia 和 AMD 數據中心計算引擎的主要供應商。本週,SK 海力士首席執行官 Kwak Noh-Jung 在韓國首爾舉行的 SK AI 峰會上展示即將推出的 HBM3E 內存一種,該內存已於過去一年在各種產品中批量生產。此 HBM3E 內存的亮點在於,內存堆棧高達 16 個芯片。這意味着每個存儲體的 DRAM 芯片堆棧高度爲當前許多設備中使用的 HBM3E 堆棧的兩倍,24 Gbit 內存芯片可提供每個堆棧 48 GB 容量。
與使用 16 Gbit 內存芯片的八高 HBM3 和 HBM3E 堆棧(最高容量爲每堆棧 24 GB)及使用 24 Gbit 內存芯片的十二高堆棧(最高容量爲 36 GB)相比,容量大幅提升。
在興奮之前需知,16 位高堆棧正在使用 HBM3E 內存進行採樣,但 Kwak 表示,16 位高內存將 "從 HBM4 代開始啓用",且正在創建更高的 HBM3E 堆棧 "以確保技術穩定性",並將於明年初向客戶提供樣品。
可以確定的是,Nvidia、AMD 和其他加速器製造商均期望儘快將此技術納入其路線圖。拭目以待。
SK 海力士表示,正使用先進的大規模迴流成型底部填充(MR-MUF)技術,該技術可熔化 DRAM 芯片間的凸塊,並用粘性物質填充其間空間,以更好地爲芯片堆棧散熱的方式將它們連接在一起。自 2019 年隨 HBM2E 推出以來,MR-MUF 一直是 SK 海力士 HBM 設計的標誌。2013 年的 HBM1 內存和 2016 年的 HBM2 內存使用了一種稱爲非導電薄膜熱壓縮或 TC-NCF 的技術,三星當時亦使用此技術,且至今仍是其首選的堆棧連接方式。三星認爲,TC-NCF 混合鍵合對於 16 高堆棧是必要的。
但 Kawk 表示,SK Hynix 正在開發一種用於 16 高 HBM3E 和 HBM4 內存的混合鍵合技術,以防更高堆棧的產量未達預期。從某種意義上說,這表明 SK Hynix 略有擔憂。推測此爲 TC-NCF 工藝的變體,該公司在 HBM1 和 HBM2 內存方面早有此工藝經驗。
Kawk 還透露了部分性能信息,稱 16 高 HBM3E 堆棧將使 AI 訓練性能提高 18%,AI 推理性能提高 32%(具體指標未知)。
HBM 路線圖回顧之旅
綜合上述情況及幾周前 SK 海力士在 OCP 峰會上的演講,此時審視 HBM 內存的發展路線圖以及 SK 海力士及其競爭對手在將該技術推向極限時所面臨的挑戰,可使計算引擎製造商避免如過去十年般使用光學 I/O 將 HBM 連接至電機。
當前有一系列 SK Hynix HBM 路線圖流傳,各有不同內容。
回顧過往,HBM1 於 2014 年推出,2015 年小批量生產,因是提升計算引擎主內存帶寬的全新技術,產量較低。SK Hynix 最初的 HBM1 內存基於 2 Gb 內存芯片,堆疊四層,容量爲 1 GB 內存,帶寬爲 128 GB / 秒,使用 1 Gb / 秒 I/O 通道。
HBM2 於 2016 年推出,2018 年商業化,此時設備線速提升至 2.4 Gb / 秒,爲 HBM1 的 2.4 倍,每個堆棧可提供 307 GB / 秒帶寬。HBM2 堆棧最初有四個 DRAM 芯片高,後增至八個芯片堆棧。HBM2 中使用的 DRAM 芯片容量爲 8 Gb,故四高堆棧最高可達 4 GB,八高堆棧爲其兩倍,即 8 GB。
2020 年 HBM2E 發佈,情況更趨有趣。DRAM 芯片密度翻倍至 16 Gbit,主內存容量翻倍至 4 層塔式機箱的 8 GB 和 8 層塔式機箱的 16 GB。DRAM 線速提高 50%,達 3.6 Gb / 秒,每堆棧帶寬高達 460 GB / 秒。有四個堆棧時,設備總內存帶寬可達 1.8 TB / 秒,遠高於傳統 CPU 的四或六個 DDR4 通道所能提供的帶寬。
2022 年 HBM3E 發佈,Nvidia 推出 "Hopper" H100 GPU 加速器且商業 GenAI 熱潮興起,一切變得瘋狂。連接 DRAM 和 CPU 或 GPU 的線路速度提高 1.8 倍,達 6.4 Gb / 秒,每個堆棧可提供 819 GB / 秒帶寬,堆棧以八高爲基礎,十二高選項使用 16 Gbit DRAM。八高堆棧爲 16 GB,十二高堆棧爲 24 GB。令人遺憾的是,HBM3 未實現十六高堆棧。且每次增加新高度都不只是難度的增加。
HBM3E 於 2023 年 5 月由 SK Hynix 推出,DRAM 上的引腳速度提升至 8 Gb / 秒,比 HBM3 內存提高 25%,使其每堆棧高達 1 TB / 秒。HBM3E 的 DRAM 芯片爲 24 Gbit,八高堆棧容量爲 24 GB,十二高堆棧容量爲 36 GB。由於其更快的 9.2 Gb / 秒信號傳輸速率,美光科技的 HBM3E 被選爲 Hopper H200 GPU 加速器(每堆棧 1.2 TB / 秒),而速度較慢的 SK Hynix 芯片則被選爲 Grace-Hopper 超級芯片中使用的 H100 和 Nvidia 的 H100-NVL2 推理引擎的第二次更新。
SK Hynix DRAM 技術規劃負責人 Younsoo Kim 介紹了公司的 HBM 路線圖,並討論了轉向 HBM4 內存所需的具體挑戰,HBM4 內存仍是一個不斷髮展的標準,預計將於 2026 年在 Nvidia 的下一代 "Rubin" R100 和 R200 GPU 中首次亮相,採用八高堆棧,並於 2027 年在 R300 中首次亮相,採用十二高堆棧。
"Blackwell" B100 和 B200 GPU 預計將使用 8 層 HBM3E 高堆棧,最大容量爲 192 GB,而明年即將推出的後續產品 "Blackwell Ultra"(若傳言屬實,可能稱爲 B300)將使用 12 層 HBM3E 高堆棧,最大容量爲 288 GB。
一直以來猜測 HBM4 會採用 16 個高堆棧,而 SK Hynix 實際正在爲 HBM3E 構建如此高的 DRAM 堆棧以供測試。只要良率不高,AI 計算引擎肯定可提前利用內存容量和帶寬提升。
正如 Kim 在 OCP 演講中所解釋,在實現目標之前,仍有諸多問題需解決。首先,計算引擎製造商敦促所有三家 HBM 內存製造商提高帶寬至高於最初約定規格,同時要求降低功耗。
隨着計算引擎製造商爲獲取更高性能而使設備升溫速度快於性能提升速度,降低功耗變得更加困難。由此,2013 年末 Nvidia 的 "Kepler" K40 GPU 加速器的功耗從 240 瓦提高到全口徑 Blackwell B200 加速器的預期 1200 瓦。B100 和 B200 由兩個 Blackwell 芯片組成,每個芯片有四個 HBM3E 堆棧,總共八個堆棧,每個堆棧有八個內存芯片高。192 GB 的內存可提供 8 TB / 秒的總帶寬。需知,整個擁有數千個節點的超級計算機集羣擁有驚人的 8 TB / 秒總內存帶寬。
若實現,使用 B300 中的 Micron HBM3E 內存可將帶寬提高到 9.6 TB / 秒。
遺憾的是,由於內存堆棧增長至 16 層高,HBM4 內存密度在 2026 年不會增加。或許內存製造商會帶來驚喜,推出容量更大的 32 Gbit 的 HBM4E 內存,而非堅持使用 Kim 演示文稿中的圖表所示的 24 Gbit 芯片。
HBM 內存中薄晶圓的處理及將 DRAM 粘合成堆棧的 MR-MUF 工藝會影響良率。散熱問題亦是一大挑戰。內存對熱量敏感,尤其是當大量內存如摩天大樓般堆疊,旁邊是大型、發熱量大的 GPU 計算引擎,且兩者需保持不到 2 毫米距離以保證信號傳輸正常。
這些即爲推進計算引擎 HBM 內存所面臨的挑戰。SK Hynix 可採取措施應對:使產品更寬,並更好地結合。HBM3E 具有 1024 位寬通道,HBM4 將其加倍至 2048 位。24 Gbit 和 32 Gbit DRAM 芯片或將支持 HBM4(可能後者用於 HBM4E,但不確定)。帶有 32 Gbit 芯片的 16 高堆棧將產生每堆棧 64 GB 內存,對於 Blackwell 封裝上的每個 Nvidia 芯片爲 256 GB,或每個插槽 512 GB。若 Rubin 保持兩個芯片且僅爲架構增強則甚佳。但 Rubin 可能是三個甚至四個 GPU 互連,HBM 沿側面運行。
想象一下,一個 Nvidia R300 套件包含四個 GPU,以及十六個堆棧,每個堆棧包含十六個高 32 Gbit 內存,每個計算引擎總共 1 TB。添加一些 RISC-V 核心以運行 Linux,加上 NVLink 端口和一個以 1.6 Tb / 秒速度運行的 UEC 以太網端口,即可稱爲服務器。
除更寬總線外,Kim 還建議將內存尋址邏輯集成到 HBM 堆棧的基礎芯片中,而非集成到 HBM 控制器中介層中的單獨芯片,以降低在計算與內存間鏈路上進行內存控制所需的功率。
此方法還可獨立於完成的 AI 計算引擎對 HBM 堆棧進行完整測試。可獲取已知良好的堆疊芯片,在確定後(而非之前)將其焊接到計算引擎插槽上。
總而言之,HBM4 預計將提供超過 1.4 倍的帶寬、1.3 倍的每個內存芯片的容量、1.3 倍的更高堆棧容量,並且功耗僅爲 HBM3/HBM3E 的 70%。
雖然上述內容皆爲良好的發展方向,但顯而易見的是,當前便需對 2026 年與 2027 年將實現的內存作出承諾。由於內存與計算間的不平衡,客戶在設備上投入大量資金,然而因 HBM 內存的帶寬與容量瓶頸,該設備無法接近其峰值性能。因此要麼儘早需要 HBM4E 內存,要麼如今年 3 月在介紹 Eliyan 的同步雙向 NuLink PHY 時所提及那般,需要一種方法將更多的 HBM3E 內存連接至當前設備。
更優的選擇是,將堆棧數量加倍,併爲 Nvidia Blackwell 和 AMD Antares GPU 獲取 HBM4E。