端到端的內部矛盾,是一體化更犀利,還是分段式更鋒芒?

最近這段時間,理想汽車正在大力宣傳其雙系統智駕方案。

理想汽車表示,自己押注的一體式端到端是比友商們選擇的分段式端到端更爲優秀的技術路線,事實果真如此嗎?

分析事物,一定要抓主要矛盾和次要矛盾。站在開發範式的角度,分模塊和端到端是主要矛盾,分段式和一體式是次要矛盾。

因爲,無論是分段式端到端還是一體式端,都完成了從基於規則的優化到基於數據驅動的擬合的轉變,使得自動駕駛系統從一板一眼地基於機械規則開發代碼進化到了基於神經網絡的經驗直覺。

相較於分模塊方案,端到端具有以下幾個優點:

分模塊方案採用級聯結構,前級模塊誤差會被逐級放大,而且由於各模塊架構不同,信息交互和接口制定銜接不順暢,端到端方案可以減少信息傳遞損失,消除累積誤差。

分模塊方案的每個模塊都需要單獨的Encoder,存在大量冗餘,端到端共享Backbone主幹網,大幅降低計算開銷,節約計算資源,從而提高了系統效率。

端到端提升了場景感知和決策能力,具有更精準的超長尾場景檢測能力和高階場景語義理解能力,同時實現了強交互場景的安全處理能力,並可以預判和規避潛在風險,最終的結果是決策更準確,行駛更類人,通行更高效。

展韜資本在今年5月份的一個研究報告裡將端到端劃分成了四個階段-感知“端到端”、決策規劃模型化、模塊化端到端、OneModel端到端。

根據現在公開的信息來看,一些傳統車企實現了感知端到端,位於第一階段,蔚來汽車只官宣量產了端到端AEB,可以認爲處於決策規劃模塊模型化的第二階段,小鵬、華爲、理想、百度實現了分段式端到端,處於第三階段,領頭羊特斯拉則處於第四階段。

這種劃分方式實際上是在強調,只有第三階段和第四階段才能算端到端,一些車企不要強蹭概念。

閱讀理解是帕魯大陸最應該掌握的一種能力,聽懂別人說什麼很重要,聽懂別人話語背後的含義更重要。

理想汽車將目前正在開展萬人公測的雙系統方案中的系統1標榜爲國內首個端到端一體化模型,其目的大概是表明分段式端到端是通往一體式端到端的中間階段,一體式端到端纔是分段式端到端的下一個發展階段,和選擇分段式端到端方案的國內友商相比,理想汽車這一次做到了“遙遙領先”。

說實話,分段式端到端和一體式端到端目前都還沒有觸及系統的上限,到底哪種方案的上限更高,目前並沒有決出最終的答案,理想汽車之所以早早地站隊一體式端到端陣營,大概是因爲行業標杆特斯拉選擇了這種方案。

榮譽和地位從來不是自封的,而是通過一次又一次的實戰打出來的。大家之所以認可特斯拉在自動駕駛領域的標杆地位,是因爲它確實數次引領了技術路線的轉變。

比如當年從後融合的CNN+相機視圖到前融合的Transformer+BEV鳥瞰視圖,從BEV的2D矢量化空間轉向佔用網絡的3D體素化空間。

有一說一,當前這波端到端狂潮也是由特斯拉引發的,若不是2023年上半年特斯拉以逆天的工程實力將端到端落地到FSD上面,大家對端到端的討論還始終侷限在學術圈裡。

硬核的特斯拉摸着石頭過河,務實的理想摸着特斯拉過河,正是因爲對特斯拉技術路線的亦步亦趨,在過去一兩年裡,理想汽車才得以以不算多的研發資源實現了本土頭部智能駕駛體驗,這種的方法論帶來的好處實在太明顯。

所以,這一次繼續押寶特斯拉的路線也是自然而然。

但是,理想汽車這次將特斯拉的OneModel端到端直接假設成了行業的終極方案,這個結論下得早了一點。

小時候,老師和爸爸媽媽教育我們要心懷理想,等長大了,殘酷的社會一次又一次地告誡我們要現實一點。人總要學着慢慢長大,體會理想和現實之間的落差。

端到端方案的理想和現實也是分開的。從理想的角度看,一體式端到端的上限更高,因爲它可以實現從感知到規劃的全量信息傳遞,中間沒有任何損失。

相較之下,分段式端到端的感知模型和規劃模型之間傳遞的是BEV特徵和表示空間網格佔用情況的三維向量空間,從原始全量信息到結構化的特徵,信息傳遞必然存在損失。

但是,理想歸理想,現實歸現實,之所以豐滿的理想和骨感的現實之間總是存在差距,是因爲在現實世界中,任何人做任何事都得考慮資源的約束。

出於成本、功耗、實時性的原因,即便是上千TOPS的車端算力也無法處理來自感知傳感器的海量信息。做一個簡單的計算,一顆800萬像素的攝像頭,30fps的幀率,每秒產生接近2.5億個像素,採用24位的RGB格式,2.5億個像素對應7.5億字節。

如果像蔚來汽車那樣全都採用800萬像素攝像頭,車端感知傳感器中的攝像頭每秒產生的字節個數接近百億!

所以,站在現實的角度,無論是一體式還是分段式端到端方案,都需要通過感知網絡進行信息的過濾、降噪和特徵提取,也就是說,即便是一體式端到端方案,感知網絡到規劃網絡之間也會存在信息損失。

此外,分段式端到端的一個明顯優點是可以更好地收集長尾場景。

可以藉助概率理解這一點,假設前方有一個障礙物感知網絡沒有檢測到,但車輛規劃出來的路徑依然符合預期,由於分段式端到端方案既可以檢測感知長尾,也可以檢測規劃長尾,一體式端到端方案只能通過規劃出來的路徑是不是符合預期進行長尾判斷。

那麼,分段式端到端可以收集到這種長尾場景,繼續提高感知能力,但一體式端到端就白白浪費了這次長尾。

說實話,現在還沒法判斷理想汽車押寶一體式端到端是不是一次好的技術決斷。

齊白石老先生說過啥來着,學我者生,似我者死,特斯拉可不是那麼好學的!