英特爾AI加速晶片 擬推中國「特供版」
英特爾將推出中國特供版AI加速晶片Gaudi 3。(路透)
英特爾日前公佈新一代AI加速晶片Gaudi 3之後,最新消息指出,英特爾將推出兩款中國獨家型號的AI加速晶片 Gaudi 3,但爲了適應美國的制裁,它們將受到嚴重削弱。
中媒半導體行業觀察報導,英特爾的Gaudi 3白皮書詳細介紹兩種獲准在中國銷售的型號。這兩款專爲中國製造的處理器分別爲HL-328和HL-388,分別採用OAM和PCIe外形規格,前者於6月推出,後者於9月推出,與其他PCIe外形規格的Gaudi 3一起推出。
總體而言,HL-328和HL-388看起來或多或少與其他產品相同,具有相同的128GB HBM2e VRAM,帶寬爲3.7TB/s、96MB緩存、PCIe 5.0 x16介面和解碼標準。
唯一的區別在於熱設計功耗,OAM和PCIe卡型號均爲450瓦。這與其他型號相比大幅減少。非中國PCIe HL-338 的TDP爲600瓦,OAM外形規格HL-325L和HL-335的TDP爲900瓦。ChinaGaudi 3型號的TDP相對較低,這可能是沒有液冷版本的原因。
儘管白皮書中沒有明確說明,但幾乎可以肯定的是,爲了遵守美國政府對處理器的出口管制,做出這些改變是必要的,該管制禁止美國公司根據性能向中國出口晶片。
中媒分析,無法真正知道英特爾對Gaudi 3做了什麼來使其相容,以及這些批准用於中國的晶片在這些變化中的執行速度有多快,但有一些線索。與其他Gaudi 3變體一樣,HL-328和HL-388仍然使用兩個晶片,因爲記憶體和緩存配置未更改。使用兩個晶片而不是一個晶片有助於降低性能密度,使晶片能夠達到4800總處理能力(TPP)的更高出口限制。
4800TPP限制意味着沒有晶片可以擁有150 TFLOPS或更多的16位元性能,並且由於Gaudi 3在BF16下可以達到1835TFLOPS,因此英特爾需要大幅降低性能。這必須通過真正大規模削減核心數量和時鐘速度或其他一些性能限制方法來實現。
中媒預期HL-328和HL-388的性能與Nvidia的H20類似,H20是最快的GPU,已獲准在中國銷售。它具有148 TFLOPS的FB16和FP16性能,略低於150 TFLOPS限制。
由於H20和Gaudi 3的中國型號之間的原始核心性能或多或少相同,因此主要區別將歸結爲記憶體(英特爾的容量更大但帶寬略少)和軟體(這一直是一個賣點)適用於 Nvidia 晶片。