一張頂20張H100!首款大模型專用芯挑戰英偉達,哈佛輟學華人創辦

首款大模型推理專用ASIC芯片問世,一上來就要挑戰英偉達——

Sohu芯片,來自初創公司Etched,一經推出就引起業界牆裂關注。

作爲專用集成電路ASIC,與通用計算的GPU不同,它只支持Transformer一種算法,無法運行同爲神經網絡的CNN、LSTM、以及Mamba等狀態空間模型。

Etched公司也剛剛完成1.2億美元A輪融資(約8.7億元人民幣),Peter Thiel、GitHub現任CEO Thomas Dohmke等重量級天使投資人蔘與。公司還透露,已有某客戶預定了價值數千萬美元的硬件產品。

對此,Mamba作者Tri Dao也感嘆:

有網友一算,人平均每天說1.8萬個單詞,那Sohu芯片一秒內就能生成21個人一天說的所有話,感覺太虛幻了。

(但實際上每秒500000tokens吞吐量包含輸入和輸出,不是純生成這麼多)

那麼Sohu能威脅到英偉達的地位麼?

考慮到Sohu更適合推理而不是訓練,對於其他注重AI推理的芯片如Groq和SambaNova更是一種挑戰,而不是威脅英偉達。

實在不行,老黃也可以使用鈔能力把整個Etched買下來嘛(手動狗頭)。

把Transformer燒錄到芯片裡

ASIC全稱是應用專用集成電路(Application-Specific Integrated Circuit),相當於把某種特定的程序“硬件化”。並且只爲一種任務優化,去掉不必要的功能,以達到比通用芯片更快並且功耗更低的目的。

如比特幣後期,礦工們就拋棄了GPU,使用挖礦專用ASIC芯片能帶來更多的利潤。又或者手機裡的視頻解碼芯片,通常也是一種ASIC。

具體到Sohu,就相當於把Transformer網絡架構“燒錄”到芯片裡,公司名稱Etched也是取自“蝕刻”的意思。

Sohu由臺積電4nm工藝製造,只有1個核心,每張芯片配有144GB HBM3E高帶寬內存。

一張芯片最高能支持100萬億參數大模型(現在根本還沒有這麼大的),支持MoE架構和各種Transformer變體,支持束搜索和蒙特卡洛樹搜索解碼。

基本上今天主流大模型需要的支持都考慮到了。

在Etched自己給出的測試結果中,Sohu比推理Llama-3 70B比H100快20倍以上,

具體設置如下:

Etched團隊表示,H100有800億個晶體管,卻只有3.3%用於矩陣乘法,這種大模型推理時最常見的運算。

只支持Tranformer的Sohu芯片FLOPS有效利用率超過90%(GPU大約是30%),無需用低精度量化或稀疏性等降低推理成本,同時也在一定程度上削弱模型能力的方法了。

讓AI模型快了20倍、同時更便宜,能帶來哪些改變?

Etched團隊列舉了今天SOTA模型的幾個痛點:

同時它們也給出了3個應用場景參考:

實時語音客服,幾毫秒理解幾千字並給出回覆。

具體場景是飯店顧客問還需要等多長時間纔有座位,AI查詢系統中每桌預定情況數據後,計算出還要等45分鐘,並引導用戶預定位置。

代碼場景,使用樹搜索算法並行比較幾百個方案,選擇最好的。

文本生成,也能更好地利用投機解碼提高生成的質量和速度。

目前Sohu開發者雲已開啓搶先體驗申請,在實際場景中能取得什麼樣的效果,量子位將持續關注。

兩哈佛輟學生創辦

Etched公司成立僅兩年,由兩位哈佛輟學生Gavin Uberti和Chris Zhu創辦。

兩人聲稱在2022年就賭Transformer將改變世界。領英資料也顯示公司創立時間在2022年10月,比ChatGPT問世還早一個月。

Etched剛剛完成1.2億美元的A輪融資,由Primary Venture Partners和Positive Sum Ventures共同領投,主要投資人還包括Peter Thiel、GitHub首席執行官Thomas Dohmke、Cruise聯合創始人Kyle Vogt和Quora聯合創始人Charlie Cheever。

除了這些大咖之外,我們發現也有不少AI初創公司創始人投資了Etched後激情“曬單”。

投資者中的不少人都認同Transformer專用芯片是不可避免的新趨勢。

四年間,GPU並沒有變得更好

Etched提出,GPU在過去四年間效率並沒有變得更好,只是變得更大了:芯片每平方毫米的的TFLOPS幾乎持平。

事實上老黃本人也在今年GTC大會上提出:“我們需要更大的GPU,如果不能更大,就把更多GPU組合在一起,變成更大的虛擬GPU。”

在Etched看來,隨着摩爾定律放緩,同時在性能和效率上取得突破的方法只剩下專用化。

不過對Etched和Sohu芯片,業界也有人提出質疑。

曾撰寫爆火教程“2023年性價比GPU選購指南”的華盛頓大學博士生Tim Dettmers指出,Etched官方的測試數據中GPU的性能可能並不是當前SOTA方法。

創始人Uberti解釋H100的數據取自英偉達官方測試。

也有人不看好的原因是,Transformer之後還是會有下一個重大架構突破。

曾有投資人透露,至少有6家公司正在秘密開發Transformer專用ASIC芯片,現在看來Etched只是浮出水面的第一家。

你看好Transformer專用芯片嗎?歡迎在評論區留下你的看法。

參考鏈接:[1]https://www.etched.com/announcing-etched[2]https://x.com/Etched/status/1805625693113663834[3]https://x.com/Object_Zero_/status/1769673722057662821