☰

國產多模態大模型狂飆！顏水成掛帥開源Vitron，破解圖像/視頻模型割裂問題

智東西編輯 ZeR0

奔向通用人工智能，大模型又邁出一大步。

智東西4月25日報道，近日，由顏水成教授帶隊，崑崙萬維2050全球研究院、新加坡國立大學、新加坡南洋理工大學團隊聯合發佈並開源了Vitron通用像素級視覺多模態大語言模型。

Vitron解決了困擾大語言模型產業已久的圖像/視頻模型割裂問題，支持從視覺理解到視覺生成、從低層次到高層次的一系列視覺任務，包括靜態圖像和動態視頻內容進行全面的理解、生成、分割和編輯等任務，能處理複雜的視覺任務，擅長視覺理解和任務執行，同時支持與用戶的連續操作，實現了靈活的人機互動。

論文鏈接：https://is.gd/aGu0VV開源代碼：https://github.com/SkyworkAI/Vitron

該模型在四大視覺相關任務的功能支持及其關鍵優勢如下：

這展示了通向更統一的視覺多模態通用模型的巨大潛力，爲下一代通用視覺大模型的終極形態奠定了基礎。

一、應對視覺任務關鍵挑戰，提出大一統的多模態大語言模型

構建更通用、更強大的多模態大語言模型（MLLM）被視作通向通用人工智能（AGI）的必經之路。

通過引入能進行視覺感知的模塊，擴展純語言基礎大語言模型（LLM）至MLLM，近年來有很多擅長圖像理解的研究成果冒出，比如如BLIP-2、LLaVA、MiniGPT-4等。專注於視頻理解的MLLM也陸續面世，包括VideoChat、Video-LLaMA和Video-LLaVA等等。

研究人員主要從兩個維度試圖進一步擴展MLLM的能力。

一是嘗試深化MLLMs對視覺的理解。從粗略的實例級理解過渡到對圖像的像素級細粒度理解，從而實現視覺區域定位能力，如GLaMM、PixelLM、NExT-Chat和MiniGPT-v2等。

二是嘗試擴展MLLM可以支持的視覺功能。部分研究已經開始研究讓MLLM不僅理解輸入視覺信號，還能支持生成輸出視覺內容。比如，GILL、Emu等模型能夠靈活生成圖像內容，GPT4Video、NExT-GPT實現了視頻生成。

當前AI社區認爲視覺MLLMs必然會朝着高度統一、能力更強的方向發展。

這條路存在一些關鍵挑戰。比如很大一部分工作都沒有實現細粒度像素級別的視覺理解，或者缺乏對圖像和視頻的統一支持，或者對於各種視覺任務的支持不充分，離通用大模型相差甚遠。

下表簡單歸納了現有部分視覺MLLM模型的能力：

研究人員認爲，未來MLLM應該是一個通用大語言模型，能覆蓋更廣泛的視覺任務和操作範圍，實現對所有視覺相關任務的統一支持，達到“one for all”的能力。這對實際應用尤其是在經常涉及一系列迭代和交互操作的視覺創作中至關重要。

例如，用戶通常首先從文本開始，通過文生圖，將一個想法轉化爲視覺內容；然後通過進一步的細粒度圖像編輯來完善初始想法，添加更多細節；接着通過圖像生成視頻來創建動態內容；最後進行幾輪迭代交互，如視頻編輯，完善創作。

爲了彌補上述差距，研究團隊提出一種通用的像素級視覺MLLM——Vitron。

二、Vitron系統架構包含三大模塊，模型訓練有三個階段

Vitron採用了與現有相關MLLM相似的架構，包括三個關鍵部分：1) 前端視覺&語言編碼模塊；2) 中心LLM理解和文本生成模塊；3) 後端用戶響應和模塊調用以進行視覺操控模塊。

▲Vitron整體框架

基於上述架構，再對Vitron進行訓練微調，實現更強的視覺理解和任務執行能力。其模型訓練主要包括三個階段。

步驟一：視覺-語言整體對齊學習。將輸入的視覺語言特徵映射到一個統一的特徵空間中，從而使其能夠有效理解輸入的多模態信號。這是一種粗粒度的視覺-語言對齊學習，可以讓系統具備整體上有效處理傳入的視覺信號。研究人員採用了現存的圖像-標題對（CC3M）、視頻-標題對（Webvid）和區域-標題對（RefCOCO）的數據集進行訓練。

步驟二：細粒度的時空視覺定位指令微調。系統採用了調用外部模塊方式來執行各種像素級視覺任務，但LLM本身並未經過任何細粒度的視覺訓練，這將會阻礙了系統實現真正的像素級視覺理解。爲此，研究人員提出了一種細粒度的時空視覺定位指令微調訓練，核心思想是使LLM能夠定位圖像的細粒度空間性和視頻的具體時序特性。

步驟三：輸出端面向命令調用的指令微調。上述第二階段的訓練賦予了LLM和前端編碼器在像素級別理解視覺的能力。這最後一步，面向命令調用的指令微調，旨在讓系統具備精確執行命令的能力，允許LLM生成適當且正確的調用文本。

由於不同的終端視覺任務可能需要不同的調用命令，爲了統一這一點，研究人員提出將LLM的響應輸出標準化爲結構化文本格式，其中包括：

三、評估四大主要視覺任務性能，展示靈活人機交互能力

研究人員基於Vitron在22個常見的基準數據集、12個圖像/視頻視覺任務上進行了廣泛的實驗評估。Vitron展現出在四大主要視覺任務羣組（分割、理解、內容生成和編輯）中的出色性能，同時其具備靈活的人機交互能力。

以下代表性地展示了一些定性比較結果：

視覺分割：

▲圖像指代圖像分割結果

細粒度視覺理解：

▲圖像目標指代理解結果

▲視頻QA結果

視頻生成：

▲文生圖

▲文生視頻

▲圖生視頻

視覺編輯：

▲圖像編輯結果

具體更多詳細實驗內容和細節參見論文。

結語：未來可探索三大方向，系統架構、用戶交互性、模態能力

Vitron在綜合性、技術創新、人機交互和應用潛力等方面展現出獨特的優勢和潛力，有助於推動了多模態大模型的發展，併爲未來的視覺大模型研究提供了一個新的方向。

崑崙萬維2050全球研究院一直致力於打造一家面向未來世界的卓越科學研究機構，與科學社區共同跨越“奇點”，探索未知世界，創造美好未來。該研究院此前已發佈並開源了數字智能體研發工具包AgentStudio，未來還將持續推動AI技術突破。

其團隊聯合研發的Vitron系統表現出強大的通用能力，但前方依然存在一些侷限性。

研究人員列出了未來可進一步探索的三個方向：

1、系統架構

Vitron系統仍採用半聯合、半代理的方式來調用外部工具。雖然這種基於調用的方法便於擴展和替換潛在模塊，但這也意味着這種流水線結構的後端模塊不參與到前端與LLM核心模塊的聯合學習。這一限制不利於系統的整體學習，這意味着不同視覺任務的性能上限將受到後端模塊的限制。

未來的工作應將各種視覺任務模塊整合成一個統一的單元。實現對圖像和視頻的統一理解和輸出，同時通過單一生成範式支持生成和編輯能力，仍然是一個挑戰。

目前一種有希望的方式是結合modality-persistent的tokenization, 提升系統在不同輸入和輸出以及各種任務上的統一化。

2、用戶交互性

與之前專注於單一視覺任務的模型（例如，Stable Diffusion和SEEM）不同，Vitron旨在促進LLM和用戶之間的深度交互，類似於行業內的OpenAI的DALL-E系列，Midjourney等。實現最佳的用戶交互性是本項工作的核心目標之一。

Vitron利用現有的基於語言的LLM，結合適當的指令調整，以實現一定程度的交互。例如，系統可以靈活地響應用戶輸入的任何預期消息，產生相應的視覺操作結果，而不要求用戶輸入精確匹配後端模塊條件。

然而，該工作在增強交互性方面仍有很大的提升空間。例如，從閉源的Midjourney系統汲取靈感，不論LLM在每一步做出何種決定，系統都應積極向用戶提供反饋，以確保其行動和決策與用戶意圖一致。

3、模態能力

當前，Vitron集成了一個7B的Vicuna模型，其可能對其理解語言、圖像和視頻的能力會產生某些限制。

未來的探索方向可以發展一個全面的端到端系統，比如擴大模型的規模，以實現對視覺的更徹底和全面的理解。此外，應該努力使LLM能夠完全統一圖像和視頻模態的理解。

國產多模態大模型狂飆！顏水成掛帥開源Vitron，破解圖像/視頻模型割裂問題

相關資訊