國產非Transformer大模型再升級!押注羣體智能,落地五大硬件,性能跑贏Llama 3
智東西作者 徐豫編輯 心緣
智東西9月27日消息,國內AI大模型創企巖芯數智(RockAI,簡稱巖芯)昨日發佈了自研的新一代非Transformer架構大模型,名爲Yan1.3多模態大模型。該模型今年11月正式向開發者開源。
目前,巖芯數智已實現該模型在手機、電腦、無人機、機器人等端側硬件上的離線部署,距離全面“脫機”使用AI大模型更近了一步。此外,該公司設立了1億元的Yan基金用於開展Yan生態合作,並透露其已與多家上下游運營商和廠商洽談端側人工智能(AI)項目。
Yan1.3多模態大模型在巖芯數智還有另一個叫法,即羣體智能單元大模型。受到生物智能的啓發,巖芯數智CEO劉凡平想要用類人腦機制的Yan架構,釋放機器智能的未知潛能。
會上,巖芯數智CEO劉凡平分享了他放棄大家一直看好的Transformer架構,堅持非Transformer架構的緣由和心路歷程。
“國內AI模型開發者都在追隨海外的步伐,這像一場沒有終點的技術接力賽。”在劉凡平眼裡,這種跟隨、模仿沒有意義。於是,他決定自研非Transformer架構大模型。
不過,今年1月推出的Yan1.0架構大模型,劉凡平直言受到了不少質疑。此後,耗時8個月,經歷了Yan1.1、Yan1.1 Plus、Yan1.2的3次迭代,巖芯數智才推出了Yan1.3版本。
劉凡平稱,Yan1.3羣體智能單元大模型突破了雲端大模型和端側大模型之間的“楚河漢界”,是一個面向機器的羣體智能單元大模型,將從另一個維度上孵化“進化中的生命體”。
此外,今天的AI前沿論壇邀請了中科院上海微系統所研究員李孟和浙江大學人工智能系主任楊洋,劉凡平與他們一同探討AI大模型與腦科學在學術界和工業界的最新進展。
談及Yan架構羣體智能單元大模型的意義,楊洋認爲該大模型將普惠很多想用AI技術卻用不上的硬件廠商。這等同於“分發入場券”,楊洋說道,算力資源匱乏的個體也可以入局AI市場,激活整個AGI生態。
劉凡平補充道,Yan架構羣體智能單元大模型除了能夠降低個體的“入行門檻”,還能推動個體智能化進階到羣體智能化,將現有的大量端側工具,做成一個可以本地直接使用的AI生命體,從而藉助羣體的力量突破機器智能的上限。
一、少內存、小算力、不開模、低成本獲得端側AI能力
作爲巖芯數智的創始人之一,鄒佳思分享了Yan1.3多模態大模型在端側硬件的落地情況。
通常來說,AI大模型在端側的應用需要考慮到設備內存佔用、續航、硬件開模成本等難點。Yan1.3多模態大模型佔用的內存基本控制在1GB左右,遠小於市面上的主流產品。
同時,通過非Transformer架構和局部算力激活機制,低算力設備也可以適配該AI大模型,可以複用現有的存量設備。
1、飛行模式下可用,參數量僅3B,中低端手機也能絲滑運行
在飛行模式下,用戶點開手機界面的RockAI(巖芯數智)智能助手App,用自然語言說出照片中的一些畫面要素,比如“一張在海邊看日落的照片”,RockAI智能助手就可以離線檢索出一系列相匹配的照片。
同時,RockAI智能助手還可以一鍵生成小紅書風格的文案,耗時約7到8秒。
此外,它還能參考畫面要素寫出不同主題的文案。聯網情況下,上述文案和照片能夠直接跳轉分享至微信朋友圈。
據鄒佳思透露,RockAI智能助手App使用的是參數量僅3B的Yan1.3多模態大模型,不僅AI圖片生成文字所花費的時間,比大部分手機上的AI語音助手快至少30%,而且大部分中低端手機的CPU都能帶得動該模型。
2、迅兔AI PC拿下“五環外的”偏遠地區市場份額
斷網情況下,部署了Yan1.3多模態大模型的迅兔AI PC,可以聽懂自然語言的語音指令,並支持音頻轉錄、會議總結、以文找圖、以圖找圖等功能。
例如,對它說出“幫我把所有橘貓的照片都刪掉”,該AI PC就可以在離線狀態下找出相應的照片。
據巖芯數智方面透露,從目前已有的測試結果來看,該大模型單次音頻轉寫時長和文本輸出長度,可以“無上限”。
鄒佳思稱,在一些預算不多的偏遠地區或海外國家,Yan1.3多模態大模型已然是PC界的一塊“香餑餑”。
不論是高端、中端,還是低端的PC主機上,該端側AI模型都可以流暢運行,“五環外的設備也可以用”,而且單臺內嵌Yan1.3多模態大模型的AI PC價格,不到一臺微軟AI PC的1/5。
3、胖虎機器人賞畫作詩
小蘇和胖虎是巖芯數智兩款端側具備多模態認知能力的機器人,巖芯數智主要負責其“大腦”和“小腦”,本體則由巖芯數智的合作伙伴提供。
他們可以在離線狀態下,控制肢體完成“七步成詩”、“詠春拳法”等複雜任務,還能理解並執行模糊指令,比如“讓一讓道”。
胖虎機器人可以在離線狀態下“賞畫”和“寫詩”,還能理解周邊的環境。例如,除了掛畫內容,它還描述到畫框外是“白色的牆壁和地板”。
胖虎機器人接收到四步作詩的指令後,會邁一次左右腿,說一句詩詞,並將這個過程重複4次。
不過,在查詢一些天氣情況等實時變化的信息時,胖虎機器人需要聯網才能給出準確情報,不然會“睜眼說瞎話”。
針對本地部署Yan架構大模型的機器人,鄒佳思希望將來這些機器人能夠全模態實時人機交互。
4、沒有網絡,飛龍無人機也能“目光鎖定”河面垃圾、違規停車
飛龍無人機是國內首個工業落地的多模態大模型無人機,具有無損耗的百毫秒實時檢測能力。
該無人機通過外掛算力來部署大模型。
基於Yan1.3多模態大模型,飛龍無人機可以高效適配電力巡檢、安全監控、環境監測等應用場景。
有運營商向巖芯數智提供了低空5G模組。因此,在飛龍無人機的實景巡檢演示中,我們可以看到無人機通過攝像頭看見了“限低10米”的標註後,會自動將巡航高度從5.08米拉昇到14.58米。
路邊垃圾桶有垃圾溢出、河面漂浮着垃圾、不規範停車的行爲……這些飛龍無人機都可以自動掃視、識別並記錄。
該無人機還可以根據指令AI拍圖,自動捕捉最佳角度,並一鍵挑選你的“人生照片”。
二、整體性能跑贏Llama 3,Yan1.3可實現CPU秒級人機交互
巖芯數智CEO劉凡平用螞蟻羣、狼羣、大雁羣的生存法則,來類比Yan1.3羣體智能單元大模型去中心化的工作原理。
論如何激發機器智能的羣體智能,巖芯數智方面認爲需要同時滿足以下3點:
1、搭載了具備自主學習能力的若干智能單元;
2、這些分散的智能單元,可以通過環境感知、自我組織和互動協作,共同解決複雜問題;
3、並且要在不斷變化的環境中,實現整體智能提升。
Yan架構大模型採用了巖芯數智自研的非Transformer架構。劉凡平稱,與市面上採用Transformer架構和非Transformer架構的主流模型相比,Yan架構大模型的性能、效率在同等參數量下都更高。
目前來看,在小參數量級別,Yan1.3多模態大模型的整體性能超過Llama 3,各方面能力基本優於Pythia和Mamba。
在劉凡平看來,Yan1.3羣體智能單元大模型有3個亮點。
首先,它是全球人機交互領域第一個端到端的多模態大模型。其模擬了人腦處理信息的方式,主要通過文本、音頻、視頻輸入信息,然後通過文本和音頻輸出。
至於爲什麼不做AI文本生成視頻,劉凡平在會後接受採訪時稱,巖芯數智更傾向於訓練Yan架構多模態大模型具備類人的視頻剪輯、製作能力,而不是直接生成視頻。這種構建大模型的思路,爲AI未來自主修改、編輯視頻留有可行性。
其次,它是全球首個跨越廣泛設備的多模態大模型。該模型的應用範圍覆蓋電視、手機、VR、車載、APIC、智慧家居、機頂盒、樹莓派、具身機器人、教育機器人、無人機等。
最後,該模型在實時人機交互上可以達到CPU秒級、GPU百毫秒級的速度。“沒有誰比我們更快了,”劉凡平說道。
三、訓練數據不能過於“純淨”,AI大模型應學會自主淘汰冗雜信息
爲什麼說傳統Transformer架構大模型並不是AGI的最優解呢?劉凡平解釋道,雖然市面上大部分模型都具備理解表達能力,但幾乎還沒有選擇遺忘和自主學習的能力。
其中,“選擇遺忘”指向的是AI模型的動態篩選、更新信息的能力,使其和人類大腦一樣,在真實的物理世界中保持活躍的狀態。
而羣體智能單元大模型兼具這3項核心能力,底層邏輯更類人腦,也更接近AGI。
在巖芯數智的規劃中,機器智能走向羣體智能要經歷4個階段,分別是100%自研具有創新性的大模型基礎架構、構建多元化硬件生態、實現自適應智能進化和協同化羣體智能。
就Yan1.3羣體智能單元大模型而言,巖芯數智來到激發羣體智能的第二階段。
目前,該公司正在將跨平臺、低算力、多模態的羣體智能單元大模型,通過內嵌或外掛的方式,部署在大疆無人機、樹莓派單板計算機等硬件上,並且無損運行。
下一步,Yan架構大模型將重點攻破自主學習與自我優化能力上。
巖芯數智方面稱,有計劃構建一種能夠持續進化的智慧生物,並在其中搭載一個信息互換與協作體系,從而實現機器羣體智能的突破性進展。這也是Yan2.0,以及Yan2.0不斷迭代後所要達到的目標。
設計一個高效的AI模型是推進羣體智能的第一步,巖芯數智選擇無量化、無裁剪地原生部署Yan架構大模型。羣體智能的核心是個體,可以將其理解爲端。這也意味着,AI模型要能夠在端側運行,才能去學習、去進化。
然而,劉凡平解釋道,目前主流的Transformer架構模型只能量化、裁剪後,才能在端側運行。經過“閹割”後的AI模型,也不再具備自主學習的能力了。
爲了進一步提升Yan架構大模型的自主學習能力,巖芯數智方面提出了訓推同步的策略,即大模型輸入信息的時候屬於學習過程,輸出信息的時候屬於訓練過程,這兩個步驟是實時同步發生的。CEO劉凡平視其爲“羣體智能單元大模型自主學習實現的最佳方式”。
同時,該公司還將Yan架構大模型放在一個“充滿噪聲”的物理環境中。
一個“真空無害”的環境並不利於孩童的成長,AI機器也是一樣的。CEO劉凡平稱,野生的數據環境纔是最真實的,信息會散落在各處,比如現場大屏幕上的PPT、音響中播放的音樂、觀衆的神情姿態……
因此,劉凡平希望訓練AI機器去自主捕捉、篩選和利用信息,而非坐等投喂人工精選、提純的數據。
四、終身學習的能力,是非Transformer架構大模型的核心優勢
作爲Transformer架構的代表,OpenAI只是暫時站在了時代的聚光燈下,中科院上海微系統所研究員、博士生導師李孟說道。一個新技術從出現,到逐漸被人們接受,再到全面暴開。期間經歷爭議,也收穫掌聲,這都是一家創企的必經之路。
巖芯數智劉凡平相信,一定會有一個新的架構出現,來替代Transformer架構,這也遵循了客觀規律。
《Attention is All You Need》作者Aidan Gomez今年4月曾拋出類似的觀點,這個世界需要比Transformer更好的架構,我們所有人都希望它能被某種新架構所取代,將我們帶到一個新的性能高原。現在,我們使用了過多的計算資源,也做了很多無用的計算。
劉凡平也曾嘗試開發過Transformer架構的大模型,但他最終發現這種思路無法模擬人腦的運行規則,難以通向AGI的終極目標。
“AI模型最好的榜單不是評測專業能力有多強,而是去評測學習能力有多強。”劉凡平認爲,傳統Transformer架構大模型的發展模式類似於“造神”,模型參數量、算力越卷越龐大,但卻丟掉了自主學習能力。
放在生物圈中,如果說傳統Transformer架構是“一鯨落而萬物生”,那麼Yan架構則是衝不散的小魚羣、遍佈海底的珊瑚、隨波漂浮的微生物。
用浙江大學人工智能系主任、博士生導師楊洋的話來說,OpenAI致力於讓單隻螞蟻變得更聰明,而巖芯數智則是探索一個機制,讓螞蟻羣體內的每隻螞蟻互相協作起來。
在AI向生物智能進化的途中,巖芯數智想要編織一張AI智能體(Agent)的大網。嘗試多種方法後,巖芯數智提出了在端側無損推理的兩大核心技術,一是以底層神經網絡架構MCSD替代Transformer的Attention機制,二是基於仿生神經元驅動的選擇算法實現類腦分區激活。
這兩種機制能夠較大幅度地減少計算複雜度和算力消耗,以低功耗、低成本驅動高性能。目前,Yan架構多模態大模型已經可以在樹莓派的單板計算機上無損推理。
結語:羣體智能是通向AGI的新路徑,腦科學能幫大忙
目前,包括申請中的專利在內,巖芯數智已獲得海內外超50項AI相關的技術專利。在巖芯數智董事長陳代千看來,AI技術將逐漸從雲端集羣走向電源設備,從集中式處理走向分佈式智能。
未來,AI的端側應用無需依賴大量的雲服務,而是在設備終端本地執行數據處理,從而有效降低數據的傳輸時延和泄露風險。
中科院上海微系統所研究員、博士生導師李孟認爲,羣體智能對於當前階段的人工智能(AI)發展非常重要。看到大模型性能真正落地各種端側設備後,他感到很激動。
在巖芯數智CEO劉凡平看來,羣體智能單元大模型的研發與腦科學的研究有諸多相似之處,都是AI與人腦的結合研究,而巖芯數智也是國內率先把腦科學與AI大模型兩者商業化的公司。
浙江大學人工智能系主任、博士生導師楊洋也認可了腦科學對於AI技術的獨特價值。
在過往針對腦電大模型的研發中,楊洋發現AI模型的泛化能力不足是腦電大模型研發的一大瓶頸。目前的腦電大模型難以在不同的個體間通用,他認爲,Yan架構大模型或許能解決這一點,可以利用其大幅提升腦電大模型的泛化能力。
李孟補充道,這類似於生物學中神經元的概念,要有一個總的神經中樞,纔能有效地控制各個人體系統。
巖芯數智董事長陳代千相信,最終所有用戶都通過各種端側應用和設備來調用AI模型,而每一個端側AI都是一個獨立的羣體智能單元,並且將從整體上改變人類所掌控的物理世界。