清華天眸芯登Nature封面!世界首個類腦互補視覺芯片問世,或開闢AGI新路
新智元報道
編輯:編輯部
【新智元導讀】時隔3年,清華團隊的研究再次登上Nature封面。剛剛,世界首個類腦互補視覺芯片Tianmouc重磅發佈,靈感來源於人類視覺系統。它能以極低帶寬和功耗採集圖像信息,突破了傳統的視覺感知挑戰,自如應對開放世界中極端場景難題。
就在剛剛,清華團隊發佈世界首款類腦互補視覺芯片——「天眸芯」。
這是一種基於視覺原語的互補雙通路類腦視覺感知新範式,標誌着我國在類腦計算和類腦感知兩個重要方向,取得的重大突破!
研究《面向開放世界感知具有互補通路的視覺芯片》(A Vision Chip with Complementary Pathways for Open-world Sensing)一經發布,即登上Nature封面。
團隊由清華大學施路平教授領銜,依託清華精密儀器系的類腦計算研究中心。
論文地址:https://www.nature.com/articles/s41586-024-07358-4
而且,這已經是該團隊第二次登上Nature雜誌封面了。上一次登上Nature的,是異構融合類腦計算「天機芯」。
「天眸芯」的成功研製,意味着智能感知芯片領域的一個重大突破。
它不僅爲智能革命的發展提供了強大的技術支持,還爲自動駕駛、具身智能等重要應用,開闢了新的道路。
「天眸芯」的重大意義,在於它突破了視覺感知的瓶頸。
在複雜多變、不可預測的環境中,實現高效、精確、魯棒的視覺感知,挑戰非常間艱鉅。傳統的視覺感知芯片因爲「功耗牆」「帶寬牆」,應對極端場景時往往會失真、失效、高延遲。
而施路平教授團隊提出的新範式,借鑑了人類視覺系統的基本原理,形成了兩條優勢互補、信息完備的視覺感知通路。
而「天眸芯」,在極低的帶寬(相對傳統高速成像技術降低90%)和功耗代價下,只需單個芯片即可實現每秒10000幀的高速、10bit的高精度、130dB的高動態範圍的視覺信息採集!
結合團隊在「天機芯」、類腦軟件工具鏈、類腦機器人等方面已有的落地技術積累,從此類腦智能生態將進一步完善,有力推動人工通用智能的發展。
「人類視覺系統」啓發全新範式
隨着AI加速發展,無人駕駛、具身智能等「無人系統」在現實中的應用更加廣泛,並引領着新一輪科技產業革命。
在這些智能系統中,視覺感知作爲獲取信息的核心途徑,發揮着至關重要的作用。
就以自動駕駛舉例,在真實的開放世界中,系統不僅需要處理龐大的數據,還需要應對各種極端事件。
比如,惡劣天氣環境、駕駛中突發的危險,夜間強閃光干擾等各種長尾問題,爲AI系統帶來了極大的挑戰。
這時,如果採用傳統的視覺感知芯片,會受到「功耗牆」和「帶寬牆」的限制,無法同時應對以上駕駛中出現的邊緣情況。
更進一步說,傳統視覺芯片在面對這些場景時,往往會出現失真、失效或高延遲的問題,嚴重影響了系統的穩定性和安全性。
爲了克服這些挑戰,清華團隊聚焦類腦視覺感知芯片技術,提出了一種全新的範式——
這一範式借鑑了人類視覺系統(HVS)的基本原理。因爲與現有的圖像傳感器相比,HVS在開放世界中更具優勢。
人類視覺系統(HVS)的互補性。視網膜由桿狀細胞和錐狀細胞組成,它們以相反的方式運作以擴大感知範圍。在下一個層——外膝體(LGN)中,M通路和P通路以互補的方式編碼信息。LGN輸出的信息由在初級視覺皮層V1被重新組織成一系列視覺原語,包括顏色、方向、深度和運動方向等。最後,這些「視覺原語」被分別傳輸到腹側通路和背側通路,以促進物體識別和視覺引導行爲
具體講,新範式包括了「基於視覺原語的表徵」,以及「兩條互補視覺通路」(CVP)。
在這一範式中,借鑑人視覺系統中的視覺原語的概念,它將開放世界的視覺信息拆解爲「視覺原語」。這些視覺原語各自描述了視覺信息的一種基本要素。
然後通過有機組合這些原語,借鑑人視覺系統的特徵,形成兩條優勢互補、信息完備的視覺感知通路,如下圖所示。
其中,視覺原語包括但不僅限於顏色、數據精度、靈敏度、空間分辨率、速度、絕對強度、空間差(SD)和時間差(TD)。
CVP包括兩條不同的通路:認知導向通路(COP)和行動導向通路(AOP)。與HVS中的腹側通路(Ventral stream)和背側通路(Dorsal stream)相類似。
「認知導向通路」使用顏色、強度、高空間分辨率和高精度等視覺原語,來實現精確認知,最大限度地減少空間混疊和量化誤差。
相比之下,「行動導向通路」使用SD、TD、速度等視覺原語,來實現魯棒、高稀疏的快速反應,從而解決數據冗餘和延遲問題。
這兩種方法在構建正常情況,以及邊緣情況的表徵時相互補充,從而實現了高動態範圍,並緩解了語義錯位和分佈外物體檢測問題。
首款類腦互補視覺芯片誕生
互補視覺芯片設計
基於這個範式,清華團隊設計出世界第一款名爲「天眸芯」(Tianmouc)的類腦互補視覺芯片。
那麼,這款芯片的設計架構是怎樣的?
使用傳統圖像傳感器架構實現互補傳感範式,將面臨諸多挑戰。
首先,設計像素陣列時,需確保其能夠在同一焦平面(focal plane)上,同時進行光電信息轉換。
此外,兩條讀出路徑的架構,必須包含能夠處理不同數據分佈和模態的異構模塊。
如上圖a所示,「天眸芯」採用90納米背照式CMOS(Back-illuminated sensor)技術製造,包含了兩個核心部分:
背照式混合像素陣列的像素結構示意圖
受感光細胞(photoreceptor cell)啓發,混合像素陣列由錐體啓發,以及杆體啓發的像素組成,具有不同的特性,如顏色、響應模式、分辨率和靈敏度。
這些像素可以將視覺信息,解析爲特定的顏色(紅、綠、藍),以及白色光譜,以作爲顏色對立視覺原語。
它們還可以通過,高或低的電荷到電壓轉換增益,調整爲四種不同的靈敏度,從而利用高增益模式的低噪聲和低增益模式的高飽和容量,以實現高動態範圍。
受錐體啓發的像素,設計爲4微米精細間距,用於絕對強度感應。
視錐細胞和視杆細胞的像素示意圖
而視杆細胞啓發的像素則有兩個較大的感受野,分別爲8微米和16微米,用於感應TD和SD。
時空連續像素架構,通過使用高密度像素內存,進而實現TD和SD計算。
具體而言,視杆細胞啓發的像素以乒乓操作(ping-pong behaviour)緩衝歷史電壓信號,以便在AOP讀出中連續計算TD。
對於跨塊的視杆細胞啓發像素中相同的內存,可以重新組織以計算SD,如下圖b中的操作階段所示。
總而言之,完整的混合像素陣列包括320×320個視錐細胞啓發像素和160×160個視杆細胞啓發像素。
此外,沿兩條路徑傳輸的電信號會表現出不同的特性,包括數據分佈和稀疏性的差異。
這就要求,採用不同方法以適當速度和精度,將信號編碼爲數字數據。
爲了解決這一挑戰,「天眸芯」便採用了並行和異構讀出架構。
對於認知導向通路(COP),絕對強度信號到密集矩陣的準確轉換至關重要。這是通過單斜率模數(single-slope analog-to-digital)架構實現的。
相比之下,行動導向通路(AOP)需要,對具有對稱拉普拉斯分佈和稀疏性特徵的「時空差異信號」快速編碼。
因此,研究人員特意採用了專門的讀出架構(如下圖c)。
其中,可編程閾值濾波器用於最小化計算的TD和SD信號中的冗餘和噪聲,同時保留關鍵信息。
隨後,這些信號使用具有可配置精度的,快速極性自適應「數模轉換器」進行量化。
此外,數據打包器用於實現稀疏可變精度TD和SD信號的無損壓縮,並採用統一協議(如圖d所示——顯示了「天眸芯」整體佈局的光學顯微照片)。
這種方法提供了自適應能力,以減少帶寬並進一步提高AOP的操作速度。
「天眸芯」測試結果
研究者對「天眸芯」的性能指標,包括量子效率、動態範圍、響應速度、功耗和帶寬等,進行了全面評估。
a.配備芯片的測試板;b.處理芯片輸出數據的完整系統
在COP和AOP中,它都表現出高量子效率,在530nm時AOP達到最大72%,COP達到最大69%。
通過結合互補的COP和AOP中不同增益模式的動態範圍,它實現了高動態範圍。
測試芯片特徵的實驗裝置如下。
a.基於EMVA1288的芯片評估實驗裝置;b.光學裝置的照片;c.芯片評估系統,包括芯片測試板、FPGA板、主機、高速ADC採集卡;d.動態範圍測量的光學裝置;e.用於動態範圍測量的光學裝置照片
如上圖b所示,通過檢測最低功率密度2.71×10^−3 μW/cm^2,和最高功率密度8.04×10^3 μW/cm^2,總動態範圍達到130dB,這就符合了一個公認的標準。
而「天眸芯」的互補路徑,實現了高空間分辨率和精度。
並且,它在不可預測的環境中具有高魯棒性。
爲了消除AOP引起的空間混疊和量化誤差,「天眸芯」互補地使用了空間分辨率和精度。
可以看到,儘管上圖c中由AOP-SD捕獲的標準西門子星圖,可能因其低分辨率而顯得失真,但COP準確地記錄了它。
如上圖d所示,在一個有水平快速移動和旋轉物體以及變化光照條件的場景中,一道突然的閃光擾亂了AOP-TD,但AOP-SD不受影響。
通過結合COP圖像與AOP-TD和AOP-SD,逐幀重建高速視頻可以恢復高速運動。
使用AOP,「天眸芯」展示出了快速的響應,可重新配置的速度範圍從757fps到10,000fps,精度從±7bit到±1bit。
這就補充了COP的相對較慢速度,保持了30fps和10bit分辨率的持續響應。
評估「天眸芯」的高速能力,可以通過瞬態閃電測試來完成。
如下圖e所示,「天眸芯」能夠在50mV閾值水平下,以±1bit的精度,在10,000fps下捕捉快速閃電。
值得注意的是,由於高度的稀疏性,AOP在瞬態現象期間的峰值帶寬消耗僅約50MB/s,相比於具有相同時空分辨率和精度的傳統相機(640×320×10,000×2)減少了90%。
下圖中,是更多芯片高速響應和時間抗鋸齒的演示。
a.高速記錄機器擊出的、不可預測、快速移動的乒乓球;b.芯片的功能,左半部分是不同模塊的分佈,包括像素、模擬、數字和接口電路,展示了不同模式下的總功耗;c.車輪旋轉的坑鋸齒重建;d.芯片的AOP能夠捕獲COP錯過的閃電,並記錄紋理細節
爲了評估「天眸芯」的整體性能,研究者使用了一個綜合的優值(FOM)。
這個FOM包含了用於開放世界傳感的關鍵性能指標,將最大采樣率(Rmax)和動態範圍整合到一個統一的指標中(Rmax × 動態範圍)。
在下圖f中,FOM分別對比了各種傳感器的功耗和帶寬。
「天眸芯」的功耗根據操作模式變化,在典型模式下(±7位,1,515fps無閾值)平均爲368mW。
可以看到,「天眸芯」達到了先進的FOM,超越了現有的神經形態傳感器和傳統圖像傳感器,同時仍能保持低功耗和低帶寬消耗。
在開放世界中的性能
所以,「天眸芯」在開放世界中的性能是怎樣的?
它的互補傳感範式,提供了廣泛的設計可能性,併爲感知算法提供了卓越的數據源。
爲了評估它在開放世界場景中的表現,研究者開發了一種集成了「天眸芯」的汽車駕駛感知系統。
對於「天眸芯」的評估,是在開放道路上進行的。
因此,測試中會涉及各種邊緣情況,包括閃光干擾、高動態範圍場景、領域轉移問題(異常物體)和包含多個邊緣情況的複雜場景。
並且,爲了充分利用「天眸芯」架構的優勢,研究者特意設計了一種多路徑算法,專門用於利用AOP和COP的互補特性。
重建管線 a.整個重建網絡的結構 b.從SpyNet修改的輕量級光流估計器,使用多尺度殘差流計算 c.自監督訓練管線,使用兩個彩色圖像和這兩個圖像之間的差異數據來提供兩個訓練樣本 d.在推理階段,調整輸入數據量以獲得任意時間點的高速彩色圖像
在傳感層面,原始信息的完整性讓它能夠重建原始場景,並適應極端光照條件。
同時在感知層面,AOP提供了對變化、紋理和運動的即時感知,而COP提供了精細的語義細節。通過同步這些結果,就實現了對場景的全面理解。
用於開放世界汽車駕駛任務的流感知管線
下圖b顯示了第一個場景。在這個場景中,涉及了突然閃光的傳感能力,這種閃光會導致照明快速變化,從而可能影響傳感器的魯棒性。
而「天眸芯」,對此類閃光表現出了非凡的適應能力,而且在正常情況下,它也能保持高感知性能。
對於實時的高動態範圍感知,兩條路徑的互補靈敏度,能使「天眸芯」在不犧牲速度的情況下,感知高亮度對比。
在感知層面,異常檢測能力可以通過AOP上的異常光流檢測器得到補充。
其中,AOP-TD和AOP-SD的協作,能夠精確計算出運動方向和速度,從而識別出異常。
而在下圖e中,展示了一個相當複雜的場景。
這個場景中有昏暗的自然光照、混亂的交通環境,甚至是來自人造光的突然干擾。
這就需要在採樣速度、分辨率和動態範圍方面,具備多樣的傳感能力。
好在,CVP上的算法提供了互補和多樣的結果,爲這些場景中的進一步決策,提供了充足的空間。
下面的柱狀圖顯示,相比僅使用單一路徑,CVP在測試的所有案例中,都表現出了更優越的性能。
尤其值得注意的是,它是在不到80MB/s和平均功耗爲328mW的情況下,達到這種性能的!
實驗表明,「天眸芯」能夠高效適應極端光照環境,並提供領域不變的多層次感知能力。
總之,「天眸芯」與傳統的傳感範式不同,清華施教授團隊的新方法,克服了同質表徵造成的低效率,可以適應開放世界中的各種極端情況。
在極端環境中,比如經過隧道,閃光燈干擾,以及汽車前方有人走過,依然能保持快速和魯棒的響應。
這種視覺感知的突破,將爲自動駕駛、具身智能等重要應用,翻開全新的篇章。
參考資料:
https://www.nature.com/articles/s41586-024-07358-4
https://www.nature.com/nature/volumes/629/issues/8014