☰

ChatGPT 發佈近兩年，4B 的端側模型已經能夠復刻當年的水平

端側 AI 目前的應用進展究竟如何？

作者 | Li Yuan編輯| 鄭玄

發佈之初曾經讓無數人驚豔的 ChatGPT3.5，目前已經能在端側用 40 億參數的小模型復刻了。

9 月 5 日，專注端側模型的國內 AI 公司面壁智能，發佈其最新的端側基座模型。

新模型參數僅僅 4B，但是宣稱性能超過 ChatGPT-3.5 Turbo ，且長上下文表現優秀，函數調用（function calling）和 RAG（檢索增強生成技術）能力。

端側模型，即可以完全無需聯網，純使用設備端算力的運行的大模型，在去年大模型調用成本高企之時，曾經被人們寄予厚望，不少人認爲端側 AI 將是 AI 普及的重要必由之路。

而今年，大模型爭相降價後，端側模型的關注度有一定降低，然而端側模型仍然被認爲是智能設備和機器人未來能夠變得真正智能的重要一環。

在 9 月 5 日的發佈中，面壁智能 CEO 李大海也接受採訪，聊了聊端側 AI 目前的應用進展究竟如何。

端側 GPT 時刻已經到來？

面壁智能此次發佈的端側模型爲基座模型 MiniCPM 3.0。

在僅 4B 的參數量上，面壁智能宣稱已經做到了在包括數學能力的各項能力上，超越了 GPT-3.5 Turbo。

除此之外，面壁智能此次發佈的模型，亮點主要爲在長文本上的能力突出和擁有函數調用、RAG、系統級提示詞（system prompt）、代碼解釋器（code interpreter）等實用能力。

在長文本上，此次 MiniCPM 3.0 擁有 32k 上下文。

面壁介紹此次 MiniCPM 使用了長本文分幀處理（MapReduce）技術。

傳統大模型使用長文本時，會把整個上下文都放進模型的輸入中，而大模型的計算開銷會因爲輸入的提升而極速上升，而尤其在端側算力有限的場景下，會對性能產生制約。

長文本分幀處理技術，相當於把一段長文本拆成很多的子任務，通過子任務遞歸實現長文本的處理。

面壁表示，這種技術，相當於可以處理無限長的文本，模型表現並不會有任何降低。

這對於運行在端側的總結類應用，可能是一個很好的消息。總結類應用通常需要處理大量數據，且有可能文本不希望上傳到雲端——比如讓AI分析跨越多年的聊天記錄。

函數調用，指的是讓大模型連接外部工具和系統，把用戶模糊化的輸入語義轉換爲機器可以精確理解執行的結構化指令，例如通過語音在手機上調用日曆、天氣、郵件、瀏覽器等 APP 或相冊、文件等本地數據庫等。

這對智能設備廠商是非常重要的。使用函數調用的可以讓手機智能助手等更智能——理解用戶意圖，從而執行復雜的操作而不需要用戶輸入繁瑣的指令。

面壁智能強調，MiniCPM 3.0 不只是有函數調用功能，能力還非常強，在評測榜單 Berkeley Function-Calling Leaderboard 上，性能接近 GPT-4o。

而 RAG、系統級提示詞、代碼解釋器等功能，傳統上只有雲端大模型才能完整覆蓋。此次面壁智能徵求了不少開發者的意見，也將其加入到端側大模型中，方便開發者調用。面壁智能的模型是開源使用的。

面壁智能表示，此次發佈的模型進步很大，主要原因是採取了內部的第五代訓練技術。端側小模型在訓練數據的精細程度上以及如何去訓練這些數據上，都會有更高的要求。這一代在數據清洗的策略，學習的策略和配比的策略上都有優化。

應用更多

仍在智能終端助手

面壁智能之前表示，在做過實驗後發現大模型時代存在新的摩爾定律：模型知識密度不斷提升，平均每 8 個月提升一倍。即相同的模型能力表現，每過 8 個月，實現這樣的能力的模型參數可以小一倍。

很明顯，目前端側模型的能力確實在快速提高。

不過在應用側和消費者側，目前端側大模型的能力，確實仍然不是非常可感知。在發佈後，面壁智能 CEO 李大海也對端側模型在行業中的應用提出了自己的看法。

目前的端側模型，仍然更多地被用在手機、PC、汽車車機端等廠商的內置助手上，不過更多地肯定是採取端雲協同的方式。

對於這些智能設備廠商而言，端側模型是不可或缺的。最重要的原因或許並不是斷網可用，而是相對於雲端的模型來說，端側的模型有一個優勢，可以更激進地，可以更全方位地使用用戶本地的隱私數據。

而對於智能設備上的 APP 開發者而言，雖然 MiniCPM 3.0 這樣的模型已經能做到相對不錯的內存佔用——MiniCPM 3.0 的模型量化後僅需 2GB 內存佔用，但是仍然存在適配的挑戰。

「一個 App 的用戶量超過 100 萬，那麼它的用戶的手機的分佈就一定會千差萬別，會有非常多的配置不同的手機，想要在當前階段就在這些所有配置不同的手機上都去部署端側模型，是非常有挑戰的。」李大海表示。

而在智能硬件的創業上，極客公園目前觀察到單純使用端側大模型進行創業的創業者也較少。在極客公園的交流中，主要原因是目前雲端模型的成本已經降低，而價格極低甚至免費的雲端模型的能力，比起端側仍然有優勢。

想使用端側模型的，反而可能是一些想在內部應用中使用大模型的公司。

「我們有很多行業裡面的客戶和朋友，他們會把我們的 MiniCPM 拿到自己的內部，拿自己的數據，去做雲端的使用。端側模型模型能力足夠強，可以直接拿去做內容分類、信息提取等等，很好用，且成本更低。」李大海表示。

除此之外，較小的模型具體的微調訓練過程的時候所需要使用到的資源也更小。

而走向未來，機器人或許是端側大模型的另一個比較有潛力的場景。

相比於智能設備，當大規模普及後，機器人可能更需要低時延、不會因爲網絡問題中斷的大模型反饋。

不過，在通用機器人本身仍然沒有完全爆發的時候，目前無論是雲端大模型，還是端側大模型，目前和機器人企業的合作都是探索性的。

而對於面壁智能公司而言，將公司定位端側模型本身，是一個很取巧的定位。

智能設備公司對於端側模型的需求本身是一種剛需。

而和智能助手通常選擇接入多個雲端大模型不同的是，對於設備廠商而言，一般只能選擇一家端側模型的提供商。算力的總量、內存的訪存速度、內存的大小，都是限制因素。

「終端上一般只放置兩個模型，一個大語言模型或者多模態大模型，一個圖片生成模型。」李大海表示。

而國內備案可選擇的，專注於優化端側的模型是有限的。差異化的定位很可能有利於面壁智能的商業化。

面壁智能沒有透露目前和 B 端客戶的合作方式，但是表示對商業模式很樂觀，認爲不會落入之前 SaaS 領域 B 端服務的困境：「在服務一個客戶的時候，肯定是項目制。但是我們服務的場景其實是趨同的。像車上我們端側模型賦能的很多場景，其實和智能設備廠商也都差不多。最終我們的產品會逐步地標準化。」

*頭圖來源：視覺中國

本文爲極客公園原創文章，轉載請聯繫極客君微信 geekparkGO

你現在用的是

端側模型還是雲端模型？

ChatGPT 發佈近兩年，4B 的端側模型已經能夠復刻當年的水平

相關資訊