手機上能跑的「GPT-4V」來啦!多圖、視頻理解首次上端!面壁小鋼炮開源史上最強端側多模態

新智元報道

編輯:編輯部

【新智元導讀】面壁小鋼炮MiniCPM-V 2.6重磅出擊,再次刷新端側多模態天花板!憑藉8B參數,已經取得單圖、多圖、視頻理解三項SOTA ,性能全面對標GPT-4V。

再次刷新端側多模態天花板,面壁「小鋼炮」 MiniCPM-V 2.6 模型重磅上新!

僅8B參數,取得 20B 以下單圖、多圖、視頻理解 3 SOTA 成績,一舉將端側AI多模態能力拉昇至全面對標超越 GPT-4V 水平。

更有多項功能首次上「端」:小鋼炮一口氣將實時視頻理解、多圖聯合理解(還包括多圖OCR、多圖ICL等)能力首次搬上端側多模態模型,更接近充斥着複雜、模糊、連續實時視覺信息的多模態真實世界,更能充分發揮端側 AI 傳感器富集、貼近用戶的優勢。

亮點衆多,延續了「小鋼炮」系列一貫的以小博大與高效低成本,劃重點如下:

「三合一」最強端側多模態:首次在端側實現單圖、多圖、視頻理解等多模態核心能力全面超越 GPT-4V,單圖理解越級比肩多模態王者 Gemini 1.5 Pro 和新晉頂流 GPT-4o mini 。

多項功能首次上端:實時視頻理解、多圖聯合理解、多圖 ICL 視覺類比學習、多圖 OCR 等功能,第一次讓端側模型睜開觀察、理解真實流動世界的「眼睛」,不僅看得清晰,還能有樣學樣、模仿學習。

極致高效,最高多模態像素密度: 類比知識密度,小鋼炮2.6取得了兩倍於GPT-4o的單 token 編碼像素密度(token density),在端側方寸之地,一路將大模型「能效比」挖到極限。這一進展,得益於視覺 token 相比上一代下降 30% ,比同類模型低 75%。

端側友好:量化後端側內存僅佔 6 GB;端側推理速度高達 18 tokens/s,相比上代模型快 33%。並且發佈即支持 llama.cpp、ollama、vllm 推理;且支持多種語言。

統一高清框架,高效能力一拖三:小鋼炮的傳統優勢 OCR 能力延續了其 SOTA 性能水平,並進一步覆蓋單圖、多圖、視頻理解。

MiniCPM-V 2.6 開源地址:

GitHub:https://github.com/OpenBMB/MiniCPM-V

HuggingFace:https://huggingface.co/openbmb/MiniCPM-V-2_6

llama.cpp、ollama、vllm 部署教程地址:

https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc

MiniCPM 系列開源地址:

https://github.com/OpenBMB/MiniCPM

單圖、多圖、視頻理解 3 SOTA!

GPT-4V級、三合一最強端側多模態

注:指20B以下、端側模型SOTA

以小博大,是端側模型的核心競爭力。

僅 8B 參數,新一代 MiniCPM-V 2.6 不僅再一次取得了媲美 GPT-4V 的綜合性能, 還首次作爲端側 AI 模型,掀開單圖、多圖、視頻理解三項多模態核心能力全面超越 GPT-4V 之新格局,且均實現 20B 參數以下模型性能 SOTA。

在 MiniCPM-V 2.6 的知識壓縮率方面,我們發現,MiniCPM-V 2.6 體現出極致的高效,取得了兩倍於 GPT-4o 的最高多模態大模型像素密度(Token Density) 。

Token Density = 編碼像素數量 / 視覺 token 數量,是指單個 token 承載的像素密度即圖像信息密度,直接決定了多模態模型實際的運行效率,數值越大,模型運行效率越高。

閉源模型的 Token Density 由 API 收費方式估算得到。結果表明 MiniCPM-V 2.6 是所有多模態模型中 Token Density 最高的,延續了小鋼炮一貫的極致高效特點

單圖方面 :在綜合評測權威平臺 OpenCompass 上,單圖理解能力越級超越多模態王者 Gemini 1.5 Pro 和新晉頂流 GPT-4o mini。

多圖方面 :在多圖評測權威平臺 Mantis-Eval 榜單上,MiniCPM-V 2.6 多圖聯合理解能力實現開源模型SOTA ,且超越 GPT-4V。

視頻方面 :在視頻評測權威平臺 Video-MME 榜單上,MiniCPM-V 2.6 的視頻理解能力達到端側 SOTA,超越GPT-4V。

此外,在 OCRBench上,MiniCPM-V 2.6 OCR 性能實現開源+閉源模型 SOTA,延續並加強了小鋼炮系列最強端側 OCR 能力的傳統優勢。

在幻覺評測榜單Object HalBench上,MiniCPM-V 2.6 的幻覺水平(幻覺率越低越好)優於GPT-4o、GPT-4V、Claude 3.5 Sonnet 等衆多商用模型。

實時視頻理解,首次上端!

睜開端側「眼睛」,打開具身廣闊潛力

真實世界的視覺信息是流動的!

端側視頻理解具有天然優勢,手機、PC、AR、機器人、智能座駕等端側設備自帶的攝像頭,具有天然的多模態輸入能力。相比雲端,離用戶更近,鏈路更短,效率更高,同時具有更強的信息安全優勢。

有了實時視頻理解功能,大模型猶如擁有一雙「眼睛」,能夠實時看到真實世界,這是多模態大模型走向具身智能等更多實際領域,實現 AGI 的必要條件之一。此外實時視頻理解功能也讓人機交互也更加自然友好。

MiniCPM-V 2.6 讓實時視頻理解功能第一次運行在端側。

在下面對面壁智能公司實時拍攝中,室內場景的各種辦公設備、牆上、會議室上的文字都能輕鬆被模型精準識別。

此外,對於「太長不看」的視頻,現在可以直接把文件拖進來,讓模型爲你總結重點信息,不用看完、不用倍速、也不用快進。

這段 1 分鐘左右的天氣預報視頻,MiniCPM-V 2.6 能在沒有聽到任何語音的情況下,發揮強大的視頻 OCR 功能,識別出視頻畫面裡密集的文字,給出不同視頻段落中不同城市的詳細天氣描述。

注:該結果爲代碼環境中復現

多圖聯合理解,首次上端!

流暢、聰明,一直識圖一直爽

鑽研多模態模型能力的不竭動力,源自於它更接近真實世界的形態,充斥着畫面、視頻、語言等多種模態、同時併發的信息。

難以想象,當我們睜開眼睛看世界,只能一個畫面、一個畫面,順次機械而卡頓地識別理解;也不會事事都能得到精準的文字指示,像小孩子模仿大人行爲舉止般「有樣學樣」地揣摩學習與動作跟隨,是絕大多數我們學習與嘗試新事物時所發生的樣子。

將端側AI的多模態能力進行極致探尋,最新發布的 MiniCPM-V 2.6 首次將多圖聯合理解、多圖ICL(上下文少樣本學習 )功能集成在端側模型,這也是此前業界多模態王者 GPT-4V 引以爲傲的能力。

1. 流暢的多圖多輪理解,爽!

就像人們習慣把多個文件拖拽給大模型處理,在日常生活和工作中,聯合處理多張圖像是高頻剛需。

比如常令人頭疼的記賬或報銷難題,小票上密密麻麻的數字難以辨別,更別提進行繁瑣的總賬計算。拍照下來,一口氣甩給 MiniCPM-V 2.6,除了一一找出每張小票的金額,最後還把總賬計算出來,十分方便。

強大的 OCR 能力+CoT (思維鏈)能力加持,不僅小票金額精準抓取,解題思路與卷面呈現都清晰簡潔:

端側多模態複雜推理能力也被一併刷新:

比如這道 GPT-4V 官方演示經典命題:調整自行車車座。這個對人很簡單的問題對模型卻非常困難,它非常考驗多模態模型的複雜推理能力和對物理常識的掌握能力。

僅 8B 的 MiniCPM-V 2.6 展現出順利完成這項挑戰的潛力,通過和模型進行多圖多輪對話,它清晰地告知完成調低自行車車座的每一個詳細步驟,還能根據說明書和工具箱幫你找到合適的工具。

2. 強悍的多圖複雜推理能力,竟能讀懂你的梗!

得益於強大的多圖複雜推理能力,MiniCPM-V 2.6 不僅能聯合識別多張圖片的表面信息,還能「讀懂」梗圖背後的槽點。

比如讓模型解釋下面兩張圖背後的小故事,MiniCPM-V 2.6 能夠通過OCR精準識別到兩張圖片上的文字:

「WFH Employees 8:59 AM」和 「WFH Employees 9:00 AM」,推理出「WFH」居家辦公狀態,然後結合兩張圖片的視覺信息聯合推理出「工作在家時,8:59還在牀上睡覺,9點立馬出現在視頻會議上」的居家辦公的「抓狂」狀態,盡顯梗圖的槽點和幽默,可謂是多圖聯合理解和 OCR 能力的強強結合。

多圖複雜推理能力表現驚豔,單圖也不在話下。

MiniCPM-V 2.6 能輕鬆揣測出梗圖中很多未明顯露出的潛臺詞,簡直是充滿幽默感的大模型「梗王」。

左右滑動查看

多圖 ICL,首次上「端」!

大模型學會揣測模仿,有樣學樣

很多時候,很多場景,難以用語言完全說清,通過明確定義的語言 prompt 來控制模型的輸出行爲難以奏效。

這個時候,圖文信息一起「看」來理解,就像我們嬰童時期那樣觀察、模仿、學習,往往更加直接與準確。

這其實就是多圖 ICL(In context learning)上下文少樣本學習,它能激發出模型的潛力,讓模型無需fine-tune,即可快速適配到特定領域和任務,顯著提高模型的輸出穩定性。

在下面的例子中,我們直接通過視覺 prompt 給大模型下指示:

給出兩組神轉折畫面,以及對畫面中的「梗」給出示意文字描述,例如一個戴着手套、重視衛生的廚師,下一秒卻用戴手套的手直接去拿實際有些骯髒的紙幣;一個看似熱衷環保的人,卻把塑料瓶裝水打開裝進環保水壺……

這時 MiniCPM-V 2.6 能夠自動從前面兩組圖文關係,揣摩出題人的意圖,並自動學會「答題模版」,給出神轉折答案—— 一個人手握大量加密數字貨幣,可你猜怎麼着,他出門購物,可是商店卻只收現金!

統一高清視覺架構

高效多模態能力一拖三

新一代小鋼炮的最大亮點:單圖、多圖、視頻理解等核心能力對 GPT-4V 的全面對標。

從單一優勢,到全面對標,大幅躍進從何而來?在 Qwen2-7B 基座模型的性能加持之外,要歸功於採用了統一高清視覺架構。

統一高清視覺架構,讓傳統單圖的多模態優勢功能得以繼承,並實現了一通百通。

例如,多管齊下的 OCR SOTA 能力:

它將 MiniCPM-V 單圖場景的「180萬高清圖像解析」進行能力遷移和知識共享,無縫拓展至多圖場景和視頻場景,並將這三種視覺理解場景統一形式化爲圖文交替的語義建模問題,共享底層視覺表示機制,實現相比同類型模型,視覺 token 數量節省超過 75% 。

OCR 信息提取的基礎上,MiniCPM-V 2.6 還能進一步對錶格信息進行類似 CoT(思維鏈)的複雜推理。

比如讓模型計算 2008 年奧運會獲得金牌數最多的 3 個國家一共獲得了多少枚金牌,CoT 的過程是:

首先利用 OCR 能力識別並提取出獎牌榜中金牌數量的前三名國家;

再將前三名國家的金牌總數相加。

8.2%的超低幻覺率,亦是發揮了小鋼炮系列AI可信方面的傳統優勢。

面壁 RLAIF-V 高效對齊技術對低幻覺貢獻頗多,MiniCPM-V 2.6 的複雜推理能力和通用域多圖聯合理解能力亦因面壁 Ultra 對齊技術得到一併增強:

在多模態複雜推理能力對齊方面,MiniCPM-V 2.6 通過複雜題目的 CoT 解答數據,構造高效對齊種子數據,並通過模型自迭代完成數據淨化和知識學習。

在多圖聯合理解方面,MiniCPM-V 2.6 從通用域自然網頁中結合文本線索挖掘多圖關聯語義,實現多圖聯合理解數據的高效構造。

在端側最強多模態的道路上,小鋼炮 MiniCPM-V 系列已成爲標杆性的存在。

自24年2月1日首次開創端側部署多模態先河,短短半年,即接連完成了端側模型從單一、到全面對標 GPT-4V 的重大突破,小鋼炮系列下載量已破百萬!

爲何面壁「小鋼炮」系列,頻出以小博大的多模態端側佳作?

可以說,MiniCPM 端側模型系列,正是面壁長期以來「大模型科學化」路線的結晶。

一方面,通過科學提升訓練方法與數據質量,不斷提升大模型「知識密度」,得到同等參數,性能更強、成本更低的高效模型。兩倍於 GPT-4o 的巔峰級單 token 圖像信息密度(Token Density),小鋼炮 2.6 交出一份漂亮的多模態高效運行效率成績單。

另一方面,面壁不斷鑽研 OCR、多圖與視頻理解等核心多模態能力創新技術,並持續突破對於端側極爲關鍵的能耗與內存極限,把最優秀的多模態模型放在離用戶最近的地方!

相比上代模型快 33%,高達 18 tokens/s 的推理速度,6GB 的內存佔用…… 每一點滴對模型「能效比」的錙銖必較,只爲了你將 iPad 捧在手心的那一刻,實時絲滑酣暢的體驗。

開源地址:

https://github.com/OpenBMB/MiniCPM-V

https://huggingface.co/openbmb/MiniCPM-V-2_6

部署教程:

https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc