GTC 2024強強聯手更上層樓

【文/周佳蓉】

一年一度的GTC 大會風光落幕,此次帶來最新AI晶片、超級電腦、人型機器人計劃等重磅消息,大幅度的AI應用進化,也讓輝達的AI霸主地位更加穩固。

距離輝達(Nvidia)首屆舉辦GTC大會的二○○九年,已十五個年頭匆匆過去,如今輝達在全世界半導體的地位已不可同日而語,繼二三年衝破一兆美元,今年市值再度衝刺超過二.二兆美元,美股排名僅次於微軟(Microsoft)和蘋果(Apple)兩大科技巨頭之後,暌違五年的實體盛會,全球將GTC大會視作全球AI風向球,創辦人黃仁勳的演講談話也動見觀瞻。三月十八日對着會場座無虛席的人羣,黃仁勳幽默地澄清:「這不是一場音樂會」,並表示能召集全球價值高達一○○兆美元、大量非IT行業代表參與此盛會,感到相當自豪。

小發表新一代AI GPU B200

輝達按照每兩年的更新頻率,升級一次GPU架構,從二二年首發採用Hopper架構的H100起引領着輝達穩坐AI晶片霸主地位,這次再推出採用 Blackwell 架構的GPU-B200。

B200是由臺積電的五奈米家族(N4P)製程打造而成,並整合兩個獨立製造的裸晶(Die),共含二○八○億個電晶體,B200透過小晶片(Chiplet)先進封裝將八顆HBM3e高頻寬記憶體,記憶體達到一九二GB、頻寬達一.八TB/s,並預告今年稍晚會推出。

GB200則是由兩個Blackwell GPU和一個既有的ARM架構的Grace CPU組成的更強大AI加速晶片,延伸的還有基於GB200打造的DGX GB200 NVL72,以及運算效能更強大的超級電腦DGX SuperPOD。

相比Hopper和Ampere架構,Blackwell架構的B200性能有了巨幅提升,最大可支援十兆參數的模型訓練,以OpenAI的GPT-3和GPT-4做比較,最高分別支援爲一七五○億和一.八兆個參數,而NVLink是由輝達開發作爲CPU/GPU間的高速互聯通道,可最大化提升CPU/GPU的傳輸效率,如今已進化到第五代,成爲B200傳輸速度能大幅提升的關鍵。

全新的加速運算平臺DGX GB200 NVL 72,則擁有九個機架,共搭載十八個GB200加速卡,一套DGX版內部使用五千條NVLink銅纜線,累計長度綿延近二公里,可以減少二○KW的運算能耗,與相同數量的H100 GPU相比,在大型語言模型(LLM)推理工作性能可提升三○倍,成本和能耗最多可降低二五倍,針對AI運算需求龐大的企業,輝達目前已宣佈亞馬遜AWS計劃採購由二萬片GB200晶片組建的伺服器,Dell、 Alphabet、Meta、Mirosoft、OpenAI、Oracle和特斯拉也將成爲DGX GB200伺服器的採用者。

晶片仰賴臺積電N4P製程

而DGX SuperPOD爲新一代超級電腦平臺,由八套DGX GB200系統打造而成,採用液冷設計,提供十一.五exaflops AI運算能力,輝達強調若企業預算足夠,最終可擴展至數萬個GB200 超級晶片,並透過NVLink連接五七六個Blackwell GPU,取得龐大共享記憶體。

值得注意的是,輝達也發表了新款基於大規模AI的網路交換機X800系列,以及人形機器人的模型GR00T專案,該專案內含開發套件Jetson Thor、更新的ISAAC Lab開發工具庫,GB200可透過X800取得八○○Gb/s超高速網路,而GR00T允許開發者利用平臺模擬機器人學習技能,支持數千個機器人同步訓練與模擬。

繼硬體之後,軟體服務也是輝達不可或缺的護城河之一,輝達發表了整合AI開發軟體微服務系統的NIM,透過直接提供多產業、多模態的專有模型,讓缺乏AI開發經驗的傳統行業也有機會跨入。

不論是B100、B200晶片的推出都仰賴臺積電的N4P製程,是臺積電基於五奈米技術的效能強化版本,儘管此次輝達的晶片並非如外界預期直接導入三奈米制程,不過也是輝達首款採用小晶片(Chiplet)及CoWoS-L形式先進封裝的產品,解決高耗電量與散熱問題,而隨着臺積電對於先進製程、先進封裝的擴廠動作積極,相關半導體設備、耗材股可望持續大啖商機。

【全文詳情及圖表請見《先探投資週刊》2292期;訂閱先探投資週刊電子版】