對話智源王仲遠:統一的多模態大模型是實現AGI的必經之路

出品|本站科技《態度》欄目

作者|袁寧

編輯|丁廣勝

10月21日,被智源冠以“今年最重要”的模型——原生多模態世界模型Emu3終於發佈。

僅基於下一個 token 預測,Emu3就實現了多模態的統一理解與生成。也就是說,無論是圖像、文本還是視頻模態的內容,都可以在Emu3一個系統中完成理解和生成——

智源走通了一條用統一架構探索多模態的方法,給出了下一代多模態大模型的訓練範式。

“科研沒有一帆風順,面對挫折挑戰以及技術創新的不確定性,Emu3研發團隊攻克了一個又一個技術難關,做到了第一次先於國際社會發布,率先驗證了新的大一統原生多模態技術路線。”智源研究院院長王仲遠難掩其興奮。

對比實際效果,根據智源的評測,在圖像生成、視覺語言理解、視頻生成任務中,Emu3的表現超過了SDXL、LLaVA-1.6、OpenSora等開源模型。

目前,智源已將Emu3的關鍵技術和模型開源。

圖注:在圖像生成任務中,人類評估得分Emu3高於SD-1.5與SDXL。在視覺語言理解任務中,12項基準測試的平均得分,Emu3領先於LlaVA-1.6與LlaVA-1.5。在視頻生成任務中,VBench基準測試得分,Emu3優於OpenSora 1.2。

此前,ChatGPT的橫空出世,驗證了“下一個token 預測”在大語言模型領域的可行性,但其在多模態模型中的適用性仍未表明。

在Emu3發佈之前,行業內多模態生成模型大多采用擴散模型(diffusion)或 DiT 架構,例如OpenAI的 Sora以及國內的可靈、即夢等。

這類模型將多模態生成與理解任務分別處理:生成任務通過擴散模型實現,而理解任務則以語言模型爲核心,映射視覺信號至語言模型,所以是一種組合式的模型。

而智源發佈的Emu3,則是證明了“下一個 token 預測”在多模態模型中的可行性,實現了從0到1的技術突破。

這個可以被稱爲多模態大模型的“GPT-3時刻”,表示這一技術路線可能開創多模態大模型的新訓練範式:“Attention is all you need 開啓了Transformer技術路線,那麼,Next-token is all you need可能會成爲多模態大模型的新路徑。”王仲遠在與本站科技等媒體的溝通會上這樣說道。

“現在,多模態大模型還在不斷探索能力上限。智源探索出了Emu3這樣一條技術路線,那麼接下來需要展示,也期待在多模態領域的ChatGPT 的時刻。”

圖注:Emu3在海外社媒中的反應

雖然目前關於通向AGI的道路仍是非共識,但像人類一樣,能夠理解並模擬物理世界的“世界模型”,已被行業內大多數視爲通向AGI的關鍵路徑之一。

OpenAI 前首席科學家、聯合創始人Ilya Sutskever 曾多次表示,只要能夠非常好的預測下一個 token,就能幫助人類達到通用人工智能(AGI)。

站在Emu3發佈節點,環顧四周:用於訓練的文本數據逐漸枯竭,數據牆林立;硬件水平受限下,算力能力短時間很難突破;被奉爲行業底層邏輯的Scaling law,也被更多人質疑是否會在模型變大的過程中而失效。

然而,文本數據之外,圖像、視頻、音頻乃至真實世界的數據是千倍於文本的巨量潛在資源。

怎麼將更加海量的數據有效集成到大模型中進行訓練?大語言模型的基礎設施能否在多模態領域複用?Scaling law 到底有沒有失效?一個原生的多模態大模型對行業意味着什麼?通向AGI的道路,智源的下一步又會如何走?

瞄向“大問題”,堅持做原始創新的智源,用Emu3給出了他們的答案。

以下爲智源研究院院長王仲遠採訪的部分內容(有刪減):

談0到1的突破:Emu3是多模態大模型的GPT3時刻

媒體:Emu3研發初衷和目標分別是什麼?

王仲遠:一方面,智源研究院堅持做原始創新,做高校做不了,企業不願意做的研發。Emu3是我們認爲在整個大模型發展技術路線上必須要攻克的技術方向:原生多模態,統一理解和生成。另一方面,爲多模態大模型的訓練範式上指明方向,這是我們的初衷。Emu3的意義很有可能會在一兩年之後,大家會有更強烈的感知。

媒體:從6月份到現在,在Emu3的研發過程中做了哪些工作?

王仲遠:對比6月,圖像生成、視頻生成能力都有了大幅的提升。

Emu3的效果已經超越了很多開源模型,但還沒有達到每一個方向上的最優。確實單向上現在很多閉源模型的能力非常強,Emu3還沒有超越閉源模型的能力。這是跟資源投入、訓練時間有關。

但我們爲什麼如此有信心?因爲現在的Emu3模型的能力比6月份又有了大幅的提升。Scaling law 在語言模型上有沒有失效已經開始有些爭論,但是在多模態大模型上還遠沒有打開。

在過去的小半年的時間,我們通過攻克一個又一個的技術難題,累積了不少核心技術、核心能力。在這期間,團隊也遇到了不少的挫折,不斷在絕望和希望之間掙扎。這就是科學探索的魅力,如果一帆風順,就不是真正意義上的科學探索和創新。

媒體:Emu3和市場上的現有的多模態大模型有什麼區別?

王仲遠:現有的多模態大模型沒有類似 Emu3的技術路線。Emu3是對已有的多模態大模型技術路線的顛覆。但是這個顛覆並不是突然出來的,而是研究界、學術界、產業界一直都有探索的,只是智源率先做出來了。

媒體:Emu3的發佈有哪些重要意義?

王仲遠:Emu3的重要的意義是讓語言模型的技術路線和多模態的技術路線不是一個分叉的關係,而是一個統一的關係。因爲我們使用了跟大語言模型非常接近和類似的架構是Autoregressive做出了統一多模態大模型,這樣可以極大地避免資源浪費。

媒體:Emu3是如何實現圖像、視頻和文字的統一輸入和輸出的?

王仲遠:Emu3將文本、圖像、視頻各種模態的信息通過統一的tokenizer 映射到一個離散空間,通過 Autoregressive的方式進行統一訓練。相當於發明了一種文字、圖像、視頻統一的“新語言”,這種語言能夠在一個統一的空間裡表達。

媒體:Emu3的技術新範式和過去的範式有什麼區別?

王仲遠:第一,多模態肯定是大模型發展的下一個重要方向。現在的多模態,或者是基於 diffusion 架構來做生成,或者是組合式模型,即把語言模型與 CLIP 結合的範式。Emu3所探索的是把生成和理解統一,把文字、圖像、視頻從原生上,從最開始訓練的時候就統一,並且具備擴展性,而且使用的是Autoregressive的方式。這種類似於語言大模型的訓練架構,能夠解決大一統的問題。

第二,能夠複用現有的硬件基礎設施。同時我們也證明了Scaling law,Emu3比前兩代的版本有了巨大的效果提升。這驗證了這樣的訓練方式和框架,很有可能是下一代多模態大模型的訓練範式。

之前的悟道系列,我們還在追趕大語言模型的GPT3、 GPT 4的階段,但是到多模態,我們第一次先於國際社會發布,率先驗證了新的大一統的原生多模態技術路線。

談Emu3架構:One for world, world in one

媒體:Emu3在哪些方面能體現出來便利?

王仲遠:不需要去使用多種模型了,只需要一個模型解決所有的事情,One for world, world in one。

媒體:Emu3的可用性如何?需要的硬件設備是怎樣的?

王仲遠:Emu3對於硬件的要求跟大語言模型一樣,這是非常重要的貢獻之一。Emu3使用大語言模型的一些硬件就能實現多模態大模型的訓練和推理。

當然現階段我們沒有做特別多的工程化開發,智源將統一的 SFT 模型在開源社區發佈,這樣專業人士能體驗到,並且能夠做進一步的訓練或者調優和各種能力的闡釋。

大模型工業化,真正變成產品,是一個完整的體系,依賴底層的硬件,現在的底層硬件,GPU 的芯片,基本圍繞像 Transformer 這樣的架構進行優化。Diffusion 架構需要的硬件優化可能更多,每一個硬件的迭代週期至少要18個月到兩年的時間。

走通基於autoregressive統一多模態的技術路線之後,可極大複用現有的基礎設施,技術演化有可能會加速。Emu 3證明autoregressive的技術路線至少是可行的,後面是進一步深耕,包括工程化。我們特別呼籲產業生態能夠一起訓練 Emu3下一代應用系列的模型。

媒體:模型參數量減少,幻覺會不會更嚴重?

王仲遠:首先簡單介紹Emu3和 Emu 2的技術區別。Emu2視覺用的還是embedding 的方式,Emu3變成了離散的token。

Emu1,Emu 2是概念驗證加探索迭代。當時用了預訓好的語言模型和擴散的decoder,快速驗證統一的生成式是否能走通,智源是國際上最早做的探索。

因爲不需要訓練語言模型,基於已有的,成本會比較低。Emu3我們是完全從頭訓練,是爲視頻圖像文本原生多模態設計的。

媒體:Emu3對於例如 DiT 的這種技術路線,或者前幾代的一些技術路線,是降維打擊還是完全替代?

王仲遠:過去幾十年深度學習發展專用模型,在特定的產品應用中有其獨特之處。例如,人臉識別,即使大模型做到現在這個程度,也沒有直接替換人臉識別的專用模型。在圖像、視頻特定的一些場景,DiT 架構有獨特的優勢。

但是Emu3大一統模型更重要的是更通用、泛化的能力以及理解和生成統一的能力上的獨特優勢。我們不期待立刻能夠替換掉所有的DiT技術路線。

OpenAI 做 GPT1、GPT2的時候,業界認爲用 Bert即可,bert可以解決很多問題,可以做得更好,直到ChatGPT才統治了整個語言的問題。但是,現在bert還是有獨特的價值。2006年提出深度學習,2012年深度學習爆發之後的很長一段時間,企業依然在用傳統的 SVM 模型。

所以,替代的週期會比較長,但是技術的先進性是可以很容易做出判斷的。

媒體:Emu3視頻好像最多5秒24的FPS,這與其他預測模型的區別?

王仲遠:下一個 token 天然的好處是本身就可以續寫,看到前面的 token預測後面的token,可以無限續下去。

只是如果在一個場景續寫,看到的長視頻都是一個場景,意義不大。現在整體的續寫能力還沒有突破長的有情節的視頻生成。

Emu3這套框架的獨特優勢就是因果性,可以基於前面發生的事情預測後面發生的事情,而不是基於一堆噪聲去想象。Emu3現在可以5秒一直續寫。

媒體:Emu3的侷限性是什麼?

王仲遠:卷積神經網絡在視覺用的非常廣泛,DiT 是過去這一兩年新提出來的技術路線,效果確實比之前模型要好。DiT 技術路線已經走通了,從確定性的角度來講,企業會更願意復現這樣的技術路線。基於autoregressive 是更下一代的技術路線。

今天Emu3的發佈,更多的證明在autoregressive 這條技術路線上的突破。業內很多的企業、研究機構在關注這條技術路線的突破,本質上也是摸索下一代技術路線到底應該怎麼走。智源有歷史使命和職責去探索一條技術路線,期待能夠爲整個行業指明方向。

比如 Open Sora 是一個開源的集合很多能力復現的diffusion transformer,取得了還不錯的性能,但是離商業化還有一定差距。隨着參數量、數據質量提升,訓練效率提升,能達到什麼樣的水平?有比 Sora更讓大家想象不到的能力?是不是能打開更長的富有情節的推理能力?Emu3是一個原生的大一統多模態,跟之前的多模態方法以及單一理解或者生成模型的能力不是一個類型。現在學術界爲什麼這麼感興趣?因爲打開了一個新通道。

Emu3探索出來的原生統一多模態大模型的一個新的技術範式,所需的資源並不比大語言模型小。但是Emu3的技術路線,能夠極大可能複用現有的大語言模型訓練的基礎設施,比如,GPU集羣,訓練框架不需要做特別大的修改,那麼有望加速整個多模態大模型的迭代和最終產業應用。

談未來方向:期待多模態領域的ChatGPT時刻

媒體:Emu3爲什麼選擇自迴歸的技術路線?

王仲遠:我們一直強調智源的機構定位,要做企業不願意做,高校做不了的原始創新。

大語言模型,市場已經復現了。所以在語言模型上智源更多的是解決共性的問題。例如,解決大語言模型共性問題的BGE 模型,今年10月登頂了 hugging face 的全球下載量榜單的第一名。

智源要做下一代探索,做未來三至五年纔會被行業認可的技術路線判斷。在多模態大的研究方向上,一直沒有探索出真正的基礎模型。當下的多模態理解,多模態生成,比較像之前的深度學習的方法,針對特定的產品、特定任務,這對於Scaling Law 或者 AGI 來講,產業界現有的方法是不夠的。

之前Emu 系列做了不少基礎工作,智源也在大語言模型上有很多積累。Emu 3用的訓練數據很大一部分來自於悟道Aquila大語言模型系列的訓練數據,以及 Emu1和Emu2訓練的圖像、視頻數據。今年年初智源研究院也和一些機構,簽署了戰略合作協議。

過往智源在大語言模型上爲行業帶來了很多的技術思潮和方向。那麼在多模態方向上,智源也需要爲整個行業指明一個方向。

媒體:Emu3下一步的規劃和需要提升的能力是什麼?

王仲遠:例如,做更長的時間視頻預測。Emu3的技術路線理論上可以一直預測,生成下去。輸入的窗口如何變大,輸出如何變長,這些大語言模型已經正在走過很多的路徑,對於多模態大模型有參考意義,這些問題我們會去探究。

媒體:對於通向AGI的路徑怎麼看?

王仲遠:關於怎麼達到AGI行業現在沒有共識。關於語言模型能不能達到AGI,現在有很多的爭論,OpenAI 的 o1確實證明了大語言模型加強化學習能夠進一步的提升模型的智能化的水平,但它到底能不能通往 AGI 仍然有爭論。

剛纔提到像Lecun,他就認爲大語言模型不足以通向AGI。我們認爲AGI 是要真正像人類一樣,不只是思考推理,還必須是要多模態的。多模態是AGI 的必經之路,尤其是人工智能進入物理世界,進入各行各業的必行之路。

媒體:智源未來三到五年之內的重點是什麼?

王仲遠:繼續研發原生多模態世界模型Emu系列,解決更大規模的數據、算力以及訓練。

統一多模態基座大模型是人工智能進入到物理世界非常重要的基座。多模態具身大腦也是研究院正在做的研究。

今年我們也看到了諾貝爾的物理學獎給了Hinton教授,化學獎是給了DeepMind團隊。AI for Science 也是智源非常關注的重要研究方向。

媒體:從 c 端傳播的角度來說,APP 肯定是最好的方式,未來,有沒有計劃和一些其他合作伙伴推出一些 c 端 APP?

王仲遠:當前市場上的語言模型APP 已經開始基於百億模型在使用,這個前提是有了千億、萬億模型,達到更高的性能,百億模型效果隨之更好。

我想再一次強調Emu3架構的優越性,將來多模態大模型都能夠非常容易使用,這是Emu3模型的意義。

現在,多模態大模型還在不斷探索能力上限。智源探索出了Emu3這樣一條技術路線,那麼接下來需要展示,也期待在多模態領域的“ChatGPT” 的時刻。