自研芯片三國殺,頭部智駕新戰場,蔚小理誰強?

作者 | 肖恩

編輯 | 德新

在8月小鵬MONA M03的發佈會上,何小鵬宣佈自研的圖靈芯片流片成功,這使其成爲繼蔚來之後第二家正式公佈自研智駕芯片的主機廠。

早在去年的9月份,蔚來就對外公佈了自研的智駕芯片——神璣NX9031,號稱1顆更比4顆強,並在7月份的蔚來科技日上宣佈流片成功。

理想內部也在推進自研芯片項目,代號「舒馬赫」,雖然項目開始的時間相對晚一些,但是預計也將於年內流片。

除此之外,比亞迪、Momenta也有自研智駕芯片項目正在進行。

芯片是個高投入、長週期的行業,研發週期最少需要2 - 3年。除了高昂的研發成本外,後續還要投入鉅額的流片費用,單次流片的成本至少需要幾千萬元,如果要設計一顆5nm的芯片,最終的研發成本可能高達20 - 30億元。

除了高額的投入之外,還要面對技術上的風險,流片失敗、良品率低、性能不達標等都是第一次踏足芯片行業的公司可能會碰到的問題。

儘管如此,國內智駕行業的頭部公司卻都不約而同地走上了自研芯片的道路。

這篇文章,你將看到:

最直接的原因是成本。

以市場上高階智駕車型普遍使用的英偉達Orin X爲例,剛發售時單顆售價超過500美金,即使現在也需要400美金一顆,支持城區高階輔助駕駛的功能至少需要2顆Orin X,而像蔚來這樣全系標配4顆Orin X的車型,僅僅採購芯片的成本就超過了1萬元。

一顆高階自研芯片的研發投入雖然超過20億元,如果生命週期的用量超過100萬片,那麼單片的成本可以降至2000元。

按照蔚來公佈的信息,一顆自研的NX9031能夠替代4顆Orin X,即使一車使用2片,也能有上千元的成本節約,而隨着出貨量的提升,自研芯片的成本優勢會進一步放大。

因此對於蔚來和小鵬這樣高階智駕芯片需求量大的車企來說,自研芯片是一筆非常划算的「生意」。

第二個重要的原因是性能。

特斯拉作爲智駕行業的先驅,也經歷了智駕芯片從外採到自研的過程。

在最早的Model S上使用的是Mobileye的EyeQ芯片,由於Mobileye是業內出名的「小黑盒」,特斯拉很快就轉向了英偉達,而隨着算法的不斷進化,英偉達的芯片已經無法滿足特斯拉的要求,因此自研芯片就順理成章。

特斯拉第一代的FSD芯片於2019年量產,單顆算力達到了72 TOPs。那時英偉達的Orin X還未上市,FSD芯片的性能秒殺市面上所有的智駕芯片。

從這時候開始,特斯拉的算法加速進化,從Transformer到佔用格柵網絡,再到現在的端到端大模型,每一次升級都帶領智駕行業向前躍進。

在算法上,國內的智駕公司一直緊跟特斯拉的步伐。

進入端到端的階段後,各家對算法也有着自己的理解,蔚來利用生成式AI設計了NWM世界模型,理想爲了解決端到端大模型可解釋性差的問題,將架構升級爲「端到端+VLM」,而小鵬則和特斯拉一樣堅信純視覺纔是智能駕駛的終局,發佈了下一代AI鷹眼純視覺方案。

但是要最大限度的發揮算法的能力,必須要有和軟件深度融合的硬件,自研芯片則是最理想的方式。

還有一個原因是出於供應鏈的考慮,2020年正是美國開始全面制裁華爲的時候,經過幾輪的制裁,華爲無法生產高端芯片,手機業務受到重創。

彼時半導體市場還面臨缺芯的問題,芯片的供應非常不穩定,經歷過這段時間的主機廠都深有體會,爲了保證生產有時會需要數倍的價格來採購芯片。

芯片是智駕的核心,從這時候開始以智駕爲核心的主機廠意識到自研芯片的戰略意義,紛紛開始推進自研的計劃。

除了上面幾個原因之外,中國芯片產業的成熟也是主機廠開始自研芯片的基礎,特別是芯片設計行業,華爲海思幾乎以一己之力將中國高端芯片的設計能力提高到了世界領先的水平。

雖然受到美國的制裁後,海思的芯片之路遇到了很大的困難,但是卻爲中國的芯片設計行業輸送了大量的人才,蔚來和小鵬的自研芯片項目的負責人均來自華爲海思,可謂是中國芯片行業的黃埔軍校。

在對比各家自研芯片的參數之前,我們需要了解一些智駕芯片的基礎知識。

芯片是半導體行業中一個非常廣義的概念,CPU、MCU、GPU、PMIC等等這些都屬於芯片中的一種,而我們通常所說的智駕芯片則屬於SOC(system on chip),也就是系統級芯片。

它集成了CPU、GPU、NPU、ISP、和內存等多個模塊,是一種集成度非常高的芯片。

圖片來源:特斯拉

以特斯拉的FSD芯片爲例,內部集成了一個12核的CPU、一個GPU、兩個NPU以及ISP和解碼器等模塊。

其中ISP和解碼器負責處理輸入的視頻數據,而CPU、GPU和NPU則是SOC中負責計算任務的模塊,但是所處理的任務類型不同。

算力

在討論智駕芯片性能強弱的時候,我們習慣用算力單位TOPs來衡量,它的含義是每秒執行1萬億次操作。

例如英偉達的OrinX,被公認是目前市場上性能最強的智駕芯片,單顆芯片的最大算力達到了254 TOPs,而特斯拉的FSD芯片單顆算力只有72 TOPs,從這個數字上看,OrinX的算力確實很強,那麼是否意味着TOPs越大的智駕芯片,性能就越好呢?

評價一個芯片性能的時候有很多算力單位,比如DMIPs、TFLOPs、TOPs。

但我們習慣用TOPs來衡量智駕芯片的性能,這是因爲現在自動駕駛算法對算力消耗最大的部分是感知端的CV算法,CV算法的核心是卷積神經網絡(CNN),它的本質是累積累加運算MAC(Multiply Accumulate),而TOPs可以很好地評價芯片在1s內完成MAC操作的次數。

CPU

CPU也就是我們常說的中央處理器,能處理各種不同類型的任務和指令,它的設計遵循馮·諾依曼架構,這個架構主要由運算器、控制器、存儲器、輸入設備、輸出設備等五個主要部分組成。

每個核心都可以獨立處理指令,但是CPU採用的是串行運算方式,每個CPU核心一次只能執行一個計算指令,完成後才能進行下一個計算。

上圖是一個4核CPU的典型架構,每個核心都可以獨立處理指令,但是CPU採用的是串行運算方式,每個CPU核心一次只能執行一個計算指令,完成後才能進行下一個計算。

它的特點是通用性和邏輯控制力好,能夠處理各種複雜的計算需求,但是缺點也很明顯,不擅長處理計算量大的並行計算。

在CPU上我們經常會聽到X86和ARM的概念,他們分別對應了兩種CPU架構,X86採用的是CISC複雜指令集,性能強大但是功耗較高,而ARM採用的RISV精簡指令集,追求的是性能和功耗的平衡。

因此,移動端和車端的CPU一般都是採用ARM架構。

最後聊一下CPU的算力單位DMIPs(Dhrystone Million Instructions Per Second)。

由於不同的指令集和架構對CPU的性能都有影響,因此不能簡單的用CPU的主頻來評價,Dhrystone是一個基準測試程序,通過測量CPU每秒能運行多少次Dhrystone程序來評價不同CPU的性能,例如100DMIPs代表每秒能運行1億次Dhrystone程序。

自動駕駛中的傳感器融合、路徑規劃和決策等算法都需要強大的CPU性能支持。

GPU

CPU能處理複雜的計算任務但是不擅長並行計算,爲了解決這個問題,GPU出現了,最開始是爲了處理圖形任務而設計的,它擁有成百上千個計算單元,每個單元能獨立執行指令,能夠並行處理大量的計算任務。

上圖是一個GPU的典型架構,和CPU相比它的邏輯控制單元和緩存都比較簡單,大部分空間都留給了計算單元。

因此GPU適合處理大量並行計算任務,但是不能處理複雜的指令,更適合處理邏輯簡單、類型統一的任務,例如圖形處理和渲染。

由於圖形處理和渲染大需要大量的浮點運算,因此GPU的算力一般用TFLOPs來衡量。英偉達最新一代的顯卡RTX 4090的算力大約爲48 TFLOPs,作爲對比OrinX的算力是5.2 TFLOPs。

和圖形處理類似,神經網絡的訓練也需要大量的並行計算,因此GPU的架構也非常適合用於深度學習的計算。

OrinX的架構就是以GPU爲核心,可以實現int8精度下最大254TOPs的算力。

NPU

既然GPU可以很好地處理AI算法中的矩陣和卷積運算,爲什麼還需要NPU呢?

GPU雖然性能強大,但是也有功耗高、成本昂貴等問題,而NPU是專爲深度學習和AI算法設計的專用處理器,在運行神經網絡算法時,NPU比GPU計算速度更快,功耗更低。

但是NPU的缺點也很明顯,它的通用性較差,能處理的計算任務類型有限,在軟件生態上也相對封閉。

而GPU已經發展了很多年,有更爲完善的軟件生態,特別是英偉達的CUDA架構,有非常豐富的應用和第三方的工具支持,開發人員可以非常方便地使用C/C++語言在這個架構上編寫程序,運行在英偉達支持CUDA的芯片上。

一個有趣的現象是,英偉達作爲AI時代的領軍者,在SOC中並沒有使用NPU的架構,而是使用GPU作爲AI計算的核心,但是蘋果和高通的SOC設計中都加入了單獨的NPU模塊。

因爲英偉達的GPU在性能上足夠強大,不需要單獨增加NPU模塊來。

但是對於其他廠商來說,無法使用英偉達這樣性能強大的GPU內核,因此單獨設計一個NPU模塊來處理AI算法則是更好的選擇。

ISP

ISP(Image Signal Processor),即圖像信號處理器,主要作用是對前端圖像傳感器輸出的信號做後期處理,主要功能有線性糾正、噪聲去除、壞點去除、內插、白平衡、自動曝光控制等。

ISP分爲外置和內置兩種,現在大部分自動駕駛芯片都將ISP集成到了SOC內部,攝像頭的原始圖像經過ISP處理後,輸入給感知算法。

一般會用像素處理能力來評價一個ISP的性能。

例如OrinX內置的ISP模塊處理像素的速度是1.85 Gpixel/s,pixel/s越高代表能處理的攝像頭像素越高,在不考慮圖像壓縮的情況下,3.2 Gpixel/s可以處理大約一億像素。

另一個非常重要但是容易被忽略的參數是位寬,它代表了每個像素包含的數據量,位寬越大單個像素裡包含的數據量越大,可以表示的顏色也越多。

例如位寬爲8bit時,一個像素可以表示256種顏色,而24bit時則可以表示1600萬種顏色。

內存帶寬

最後聊一下內存帶寬,這是我們在討論智能駕駛芯片性能時經常忽略的一個參數。

神經網絡算法的本質是矩陣的乘積累加運算,這個過程中需要頻繁的讀取數據,使用的算法模型參數越多,在內存中需要保存的數據量越大。

不論是智能駕駛還是人工智能,都在走向大模型的技術路線,對於存儲帶寬的要求也會越來越高。

自動駕駛領域非常火熱的Transformer模型,它的參數量在10億左右,而GPT-4的參數規模則超過1.5萬億。

我們在手機領域常見的內存方案是LPDDR,這是一種用於移動端的低功耗內存技術,目前主流的自動駕駛芯片也是使用這個技術,最新的標準是LPDDR5X,最高帶寬8533MT/s,這裡的MT/s指的是每秒傳輸一百萬次,實際能傳輸的數據量還取決於位寬。

除了LPDDR之外,還有兩種帶寬更高的技術:GDDR和HBM。

HBM是一種使用了3D堆疊架構和硅通孔技術的動態隨機存儲技術,主要用於高性能計算和AI領域,目前已發展到HBM3。

採用這個技術的英偉達H100 NVL顯卡,最大帶寬能達到7800GB/s。

但是HBM的缺點就是太貴,汽車領域無法承受這麼高的成本。

GDDR可以算是廉價版的HBM,主要用於顯卡領域,目前發展到GDDR6x,例如英偉達最新的RTX4090顯卡採用的就是GDDR6x,最大帶寬能達到1008GB/s。

GDDR的成本雖然遠低於HBM,但是也要達到LPDDR的3倍以上。

在汽車行業有一家OEM就把GDDR技術用在了自動駕駛的芯片上,特斯拉最新的FSD二代芯片支持GDDR6,爲了支持大模型特斯拉也是下了血本。

在智能駕駛技術爆發之前,市場上的智駕芯片都是小算力,最高支持到L2的ADAS功能,最經典的芯片是Mobileye的EyeQ系列。

從英偉達進入自動駕駛領域開始,智駕芯片進入大算力時代。

英偉達的OrinX和特斯拉的FSD芯片分別代表了大算力智駕芯片的兩種設計思路:

一個是在硬件上堆料來打破算力的天花板,大力出奇跡;

另一個是算法和硬件深度融合,最大效率的利用芯片的性能。

OrinX

雖然英偉達已經發布了最大算力超過1000 TOPs的Thor

( 邁向千T算力時代,最強智駕芯片Thor量產前夜),但是距離量產還有一段時間。

目前已量產的智駕芯片中,紙面算力最大的還是OrinX,先來看一下它的架構。

CPU部分採用了12核的ARM Cortex-A78AE,這是ARM專爲車載和移動端設計的架構,算力爲240 KDMIPS,同時基於Cortex-R52s提供了功能安全島。

GPU部分使用的英偉達的Ampere架構,由2個圖形處理集羣(GPC,Graphic Processing Cluster)組成,每個GPC有8個流處理器(SM,Streaming Multiprocessors),每個SM擁有128個CUDA核心和4個Tensor核心,OrinX總計擁有2048個CUDA核心和64個Tensor核心,在FP32精度下的GPU算力爲5.2 TFLOPs。

OrinX沒有專門的NPU,但是提供了兩個加速器PVA和DLA,PVA是計算機視覺算法的加速器,DLA則是專門針對深度神經網絡中卷積計算的加速器。通過GPU和DLA,OrinX在int8精度下最大可以提供254 TOPs的算力。

ISP最大的像素處理能力是1.85 Gpixel/s,位寬沒有明確的數據,可能是16 bit。

內存部分採用的是256 bit的LPDDR5,最高帶寬6400 MT/s,對應的內存帶寬是204.8 GB/s。

從架構上看,OrinX的CPU性能中規中矩,但是GPU性能強大,依靠英偉達強大的技術實力,不需要額外的NPU模塊,直接通過CUDA和Tensor核來滿足AI算法的需求,加上英偉達成熟的工具鏈和生態,不愧爲市場上佔有率最高的大算力智駕芯片。

FSD芯片

特斯拉最新的HW4.0已經搭載了FSD二代芯片,但是沒有公開具體的參數。

這裡還是以第一代FSD芯片爲例,來看看特斯拉自研芯片的思路,先上架構圖。

CPU用的是ARM Coretex-A72,一共有12個核心,A72單核心的CPU算力爲5.5 DMIPs/MHz,主頻是2.2 GHz,12個核心的總算力大約爲146 KDMIPs。

GPU部分使用的是ARM Mali-G71,算力只有600 GFLOPs,但GPU不是FSD芯片主要的計算核心,影響不大。

FSD芯片最核心的部分是NPU,每個芯片上有兩個NPU,專爲神經網絡計算中的MAC設計,每個NPU在int8精度下的最大算力爲36 TOPs,單顆FSD芯片的最大算力爲72 TOPs。

從數字上看並不是很大,與OrinX單顆254 TOPs看起來有差距,但是OrinX的這個數字是稀疏算力,而且是把CUDA和Tensor核心加在一起的綜合算力,實際上參與MAC計算的主要是Tensor核心,它的稠密算力只有54 TOPs。

這也是爲什麼第一代FSD芯片雖然算力數字不大,但是Transformer和端到端大模型依然能夠跑起來的原因。

從FSD芯片的設計可以看到自研的好處,專爲神經網絡算法而設計的NPU模塊,能夠最大限度的發揮芯片的性能,能效比拉滿。

地平線J6P

最後來看看國內的後起之秀——地平線。

作爲中國智駕芯片的一哥,地平線進步的速度也非常快。最新的征程6系列芯片包含了從低階到高階的多款產品,其中的旗艦產品J6P的算力更是達到了560 TOPs。

雖然地平線沒有公佈詳細的架構,但是從一些數據可以看出這顆芯片擁有非常強大的性能。

CPU採用的是18核心的ARM Cortex-A78E,算力超過400DMIPs,接近OrinX的兩倍。GPU算力不高,只有200GFLOPs;同時內置功能安全島,大概率使用的是ARM Cortex-R52內核,實現ASIL-D等級。

NPU部分使用的是地平線自研的BPU架構,目前已經發展到了第三代,地平線命名爲納什。

這一代BPU最大的特點是針對Transformer、BEV等算法做了針對性的優化,同時在架構上使用了三級存儲架構,可以降低大規模參數下帶寬的瓶頸問題,加上浮點向量加速單元和數據變換引擎等技術,J6P在int8精度下的最大算力達到了560 TOPs。

存儲方面使用了LPDDR5,最高帶寬205GB/s,和OrinX保持一致。

J6P的晶體管數量達到了370億,相比之下英偉達OrinX是170億,而FSD芯片只有60億。

強大的CPU和NPU算力,加上對神經網絡算法的特殊優化,J6一發布就獲得了極大的關注,國內主流的OEM都官宣將基於J6開發新一代自動駕駛域控,J6的最終表現讓人期待。

在去年的NIO DAY上,蔚來就率先公佈了自研芯片神璣NX9031,並於今年7月份流片成功,隨後小鵬也在8月份宣佈自研芯片圖靈流片成功,兩家都走的是大算力路線。

下面就從已知的參數上,來看看誰纔是自研的最強芯片。

蔚來神璣NX9031

發佈會上斌哥稱這是全球第一顆5nm的智駕芯片,可見蔚來是下了血本。

現在有能力代工5nm芯片的只有臺積電和三星,而且資源緊張,代工費不菲。晶體管數量超過500億,是OrinX的兩倍以上,加上5nm的先進製程,芯片的性能表現令人期待。

CPU部分採用的大小核設計,總共是32個核心,這裡麪包含三種核心,大核是ARM Cortex-A78AE,小核是A65AE,內部集成了功能安全島,使用的是R52。總的CPU算力達到了615K DMIPs。

GPU沒有公開數據,發佈會上也沒有做介紹,有可能是沒有單獨的GPU模塊,把圖形渲染的部分都交給座艙來完成。

內存使用的是LPDDR5x,這是2021年最新的DDR標準,最高帶寬8533Mbps,位寬按照256bit來計算的話,帶寬可以達到273GB/s。

NPU沒有公佈具體的架構,預計有2個核心。

蔚來特別強調了對算法的優化,Transformer類算法性能有6.5倍的提升,Lidar類算法性能有4倍的提升,BEV算法性能4.3倍提升,但是蔚來沒有提是和哪個芯片相比,大概率是以當前OrinX的平臺性能爲參考。

蔚來沒有公佈具體的算力,但是發佈會上斌哥說一顆神璣的性能相當於四顆OrinX,有些人就認爲算力能超過1000 TOPs,這個顯然是錯誤的。兩個芯片並聯的算力並不能直接相加,因爲會受到帶寬的限制。

Orin模組之間是通過以太網連接,4個OrinX並聯最多也就能增加20%的算力,所以當前蔚來平臺的最大算力在300 TOPs左右。如果按照這個數字來看,斌哥所說的一顆頂四顆就可以理解了,估計神璣的實際算力在500 TOPs左右。

發佈會上斌哥特別強調了ISP的性能,位寬26bit,像素處理能力達到了6.5Gpixel/s,前面介紹ISP參數的時候提到過,位寬24bit代表一個像素可以表示1600萬種顏色,26bit則是6700萬種顏色。

作爲對比OrinX則是16bit左右,而像素處理能力OrinX也只有1.85Gpixel/s,可以說神璣的ISP性能是非常強大,從發佈會演示的視頻來看,在畫面細節和暗光表現上都有巨大的提升。

但是有個小問題是發佈會上展示的圖像是給人眼觀看的,並不是實際輸入給算法的色彩格式,神璣這顆強大的ISP對算法的實際提升還需要時間驗證。

從這些性能參數可以看出蔚來自研芯片的思路,不惜成本採用了5nm的工藝,換來的是斷層領先的CPU和ISP性能,加上專爲算法設計的NPU架構,最終可以實現1顆頂4顆OrinX的表現。

可以說在Thor正式上車之前,神璣NX9031就是當下最強的智駕芯片,第一次設計芯片就能達到這樣的水平,讓人歎服。

小鵬圖靈

蔚來宣佈自研芯片流片成功的一個月後,小鵬也正式公佈了自己的自研芯片——圖靈,一顆專爲AI大模型定製的芯片,能用於智能駕駛、飛行汽車和智能機器人等多個領域。

小鵬沒有公佈非常詳細的參數,我們可以從已知的幾個數據上大概推測出它的性能表現。

小鵬公佈了總的核心數是40個,這其中包含了CPU和功能安全島,考慮到這顆芯片還要用於其它場景,需要考慮芯片的通用性,因此大概率是包含了GPU模塊的。

CPU大核預計採用的是ARM Cortex-A78AE,核心數量在24個左右,會有2-4個Cortex-R52作爲功能安全島,整體CPU算力會在500 kDMIPs左右。

GPU部分可能使用的是ARM MALI-G78AE,核心數量在12個左右,預計GPU算力在1000 GFLOPs左右。

NPU部分有2個核心。

小鵬在發佈會上介紹圖靈芯片在本地最高可運行300億個參數的大模型,結合小鵬未來的智駕路線,可以看出這顆芯片的NPU是專爲端到端大模型而設計的。

雖然沒有公佈具體的算力,但是何小鵬在發佈會上也提到1顆圖靈芯片相當於3顆OrinX芯片的算力,預計它的算力也能達到400 TOPs左右。

ISP部分比較特別,有2個獨立的ISP核心,一個負責AI算法的圖像處理,另一個負責圖像的合成,可能是考慮到其它應用場景裡不一定有汽車座艙芯片那樣強大的ISP模塊,所以單獨增加一個圖像處理的ISP核心,可以大大的提高芯片的通用性。

小鵬沒有公佈具體的製程,但是提到了這顆芯片性價比非常高,因此大概率還是採用7nm的製程。

從這些參數上可以看出小鵬在自研芯片的設計路線上與蔚來有很大的不同。

首先是性能和價格的取捨,小鵬沒有追求高製程,而是採用性價比較高的7nm,而蔚來爲了追求性能,不惜成本也要採用5nm製程;

其次是爲大模型而定製的NPU模塊,從這裡也能看出蔚來和小鵬在智駕路線上的不同。

蔚來的智駕路線裡激光雷達還是重要的部分,因此神璣芯片對Lidar的算法做了特殊的優化,而小鵬則是走純視覺路線,押注端到端大模型。

最後一點是非常高的通用性,圖靈芯片集成了GPU模塊和2個ISP核心,能應用於多個類型的產品,是小鵬AI版圖中非常重要的一部分。

而蔚來的神璣芯片則專爲智駕而設計,捨棄了GPU模塊,把芯片上的空間留給了其它模塊。

從理論性能上來說蔚來的神璣無疑是當下自研的最強芯片,但是自研芯片是爲算法而定製的,性能強大並不代表全部,最終還是要看系統的實際表現。

明年Q1上市的蔚來ET9將會搭載2顆神璣NX9031,小鵬的圖靈芯片也將於明年上車,地平線與J6P深度軟硬結合的智駕方案SuperDrive預計明年Q3量產。

還有傳聞中的理想、比亞迪、Momenta,自研芯片和軟硬一體將是智駕行業的下一個趨勢,明年各個頭部大廠在智駕上的表現讓人期待。