2025 年,AI Agent 將如何變革?

從傳統的 AI Agent,邁向個人基礎智能體 Personal Foundation Agent。

整理 | 連冉編輯| 靖宇

2024 年被業界視作 AI 應用之年,在即將到來的 2025 年,Agent 則被廣泛看好。上週,谷歌正式發佈其最新 版大模型 Gemini 2.0 系列,並表示這是他們迄今爲止最強大的人工智能模型,「專爲 Agent 時代設計」。如何將「智能體」作爲打破傳統人機互動侷限的核心驅動,成爲業界熱議的核心問題。

在極客公園 IF2025 創新大會上,無界方舟(AutoArk)創始人兼 CEO 曾曉東在《除了找 AI 做「情侶」,AI 還能做什麼?》 主題演講中,深入探討了 AI Agent 的未來發展方向,尤其是如何通過基礎智能體(Foundation Agent)推動 AI 從單一任務助手向個性化、情感化的智能夥伴邁進。

從最初的 AlphaGo 到如今的大型語言模型,再到垂直領域的專業化智能體,AI Agent 的功能和應用範圍正在迅速擴展。然而,隨着 AI 技術進入個人生活領域,智能體不再僅僅是完成任務的工具,也越來越成爲理解用戶情感、滿足個性化需求的核心夥伴。

在交互、記憶和技能等關鍵領域,如何實現低延遲、帶視覺理解、高情感互動的實時反饋,如何構建個性化的記憶系統,如何在虛擬與物理環境都具備魯棒的執行能力,成爲智能體進化的重要挑戰。

曾曉東介紹的「個人基礎智能體」概念,正是基於此背景而提出。他強調個人領域的 AI Agent 不僅是解決單點問題的助手,更是用戶的長期夥伴,個性化滿足生產力和情感陪伴的需求,使 AI 能夠真正理解和融入用戶的生活與工作。

同時,曾曉東指出,個人領域的AIAgent,將不止存在於現有的手機、電腦,還會存在於越來越多的新型硬件終端。所以,無界方舟的探索不僅涵蓋了技術方面的突破,也孵化了基於自研技術優勢的硬件產品,將於明年發佈的智能機器人「阿奇」,也是這一理念的體現。

在這一全新的 AI 智能體藍圖下,曾曉東和無界方舟團隊的技術探索正加速落地,未來的 AI 產品或許將成爲每個人生活中不可或缺的個性化夥伴,進一步推動人機交互邁向更高的智能化、情感化層次。

在曾曉東眼中,無界方舟的專業領域智能體方案,也將爲企業級市場帶來前所未有的機遇。AI Agent 可謂應運而生,通過與行業專家的互動逐漸學習和優化,從而爲企業業務流程的數智化轉型鋪平道路。

新的一年即將到來,AI 產業的下一個階段也將拉開序幕。預計到 2025 年,AI Agent 的應用市場將達到數百億美元規模,2025 年有望成爲 AI Agent 商業爆發元年。

以下爲曾曉東在極客公園 IF2025 創新大會的演講實錄,由極客公園整理。

01

AI Agent是如何發展的?

曾曉東:大家下午好!我是無界方舟的創始人曾曉東。

在過去兩年多的時間裡面,我跟我的團隊一直在堅持一個方向——AI Agent,我們目前正在從傳統的 AI Agent 邁向基礎智能體(Foundation Agent)。

我們可以先從實踐的路徑看一下 AI Agent 的發展路線。

AI Agent 的發展路線 |圖片來源:無界方舟

其實 Agent 在近 20 年來,第一次出現在人類視野的是 AlphaGo,在強化學習方面,用 Agent 在大量棋局中跟環境做互動,學會下圍棋這個任務。但這些 Agent 都只會處理單一任務,所以在 AlphaGo 之後,Agent 在很長一段時間沒有受到更多關注,直到大模型的出現。

以語言基礎模型舉例,它可以處理許多任務,包括中長尾的任務。在 LLM 上很快長出了不少基礎 Agent 框架,我們也看到很多 Prompt Agent 的出現,也就是通過寫 Prompt 給 Agent 一定的角色,包括給它配置一些可調用的工具。據不完全統計,目前全球有超過 70 多萬 Prompt Agent 應用。現在只要大家打開任何一個大模型的 App,一定會有一個 Tab 是關於智能體的。這些 Agent 我們統稱爲 Prompt Agent 或者 Baby Agent,因爲它們本質上依然是大語言模型的某些通用能力,只是通過寫 Prompt 的方式將其功能具象化。

我認爲AIAgent 在未來會有兩個深水區:專家 Agent 和 個人 Agent。

當 Agent 進入第一個深水區,垂直領域,就需要專業度更高的 Agent。直接套用通用模型的 Prompt Agent 無法滿足垂直領域要求的專業度,在以往的專業案例中,通用模型在垂直領域的任務通過率往往不足 50%。所以我們需要專家 Agent,將模型與垂直領域數據、專業業務流程做深度耦合,形成專業度極高的 AI Agent。

針對高度複雜的任務,我們甚至可以組建一個多智能體團隊,去解決特別難的命題。這裡舉一個產品案例,是我們在上半年推出的產品,來攻克醫藥研發領域的難題。在該產品中,我們有 18 個專業化的 Agent,每個 Agent 背後的模型是不一樣的,18 個 Agent 可以相互進行自然語言溝通、寫代碼、調用醫學工具和模型、自動糾錯等,去處理高度複雜的問題。

對於專家 Agent 這個層面來說,能夠產生商業模式的關鍵,是 Agent 在該垂直領域的專業度。無論採用的是單智能體方案,還是多智能體方案,都要有效起到理想的降本提效作用。

無界方舟多專家智能體產品 AgentStudio |圖片來源:無界方舟

當 Agent 進入第二個深水區,個人領域,它除了能幫助用戶提升生產效率,還會提供更多情緒價值。個人領域 Agent 不只存在於手機或電腦,還會搭載於更多終端,比如眼鏡、智能音箱、未來的人形機器人,還有更多新型的智能硬件。這其中存在着非常大的 GAP,無論是硬件 AI 產品,還是軟件 AI 應用,基礎模型與應用之間仍存在着許多核心問題待解決,比如說交互體驗、個性化的記憶、執行能力等等。

我們團隊在過去很長時間,都在探索個人領域到底需要怎樣的 Agent?我們認爲,個人領域需要的絕不是傳統意義的 Agent,而是基礎智能體,我們給它一個新的名詞叫作Personal Foundation Agent(個人基礎智能體)。

基礎模型與 AI 應用之間的 GAP,需要通過個人基礎智能體來解決|圖片來源:極客公園

02

基礎智能體三要素:交互、記憶、技能

個人基礎智能體的背後有三個基礎能力,我們要把它做到高水位,這樣個人化應用的落地纔會變得更加快捷。

個人基礎智能體三要素|圖片來源:無界方舟

第一個維度是交互,不只是文本的交互,還包括語音、視覺理解的實時交互。

第二個維度是記憶,個性化的記憶,基礎模型之外的記憶系統應該如何去搭建。

第三個維度是技能,也就是 AI Agent 的執行能力。

如果我們把這三個要素畫在同一個座標系中,我們剛纔所看到的不管是 AlphaGo 、Prompt Agent,還是專家型的 Agent,它們都處於座標系的左下角,而我們的目標是要做一個位於座標系右上角的個人基礎智能體,難度極高。我們在過去兩年多的時間,在每個維度都取得了一些階段性成果。接下來我會一一爲大家介紹。

我們先看交互這個維度。在做一款個人 AI 應用時,不管是軟件類的,還是硬件類的,在許多場景,需要的不僅僅是 LLM 純文本交互能力,而是擬人且實時的語音、視覺理解互動能力,也就是下圖中間部分的交互能力。

傳統方法一般是用「三段式」的串行鏈路來實現音視頻交互,也就是先接一個語音識別 ASR、再接一個大模型 LLM、最後銜接一個語音合成服務 TTS,但這種方式有三個致命問題:1)延遲很高;2)交互僵硬;3)沒有情緒。

傳統語音 Agent 交互鏈路|圖片來源:無界方舟

我們舉幾個常見的 Case,比如市面上的各種語音互動玩具,它的反饋延遲大概是 6 秒,這是用傳統的「三段式」鏈路通常會遇到的問題。它的交互不是開放式的,不能隨時通過語音打斷,許多產品都需要按住物理按鈕才能對話,這些都導致了產品體驗不佳,退貨率極高。

除了「三段式」鏈路,還有一種方式——端智能,爲了降低交互的延遲,把模型壓縮部署到端側。但它會有兩個很嚴重的問題:一是耗電,哪怕把模型壓縮到 2B 或者 0.5B,對話幾輪就會掉一格電,顯然無法滿足商業需求;二是偏小的模型,它的智力水平會下降非常多。雖然端側模型是一個很好的方向,但短時間之內如果要做商業化產品,這並不是一個很好的選擇。

那麼,Agent 的交互能力到底需要達到什麼水平呢?我們需要的是完全開放式的、延遲非常低、帶視覺理解能力、情緒表達很豐滿、可以驅動軟硬件載體的AIAgent。

個人 Agent 的交互能力需求|圖片來源:無界方舟

由於市面上沒有現成模型能夠直接套用,我們自研摸索出一套理想的解決方案。

第一,它是雲端的,還是比較大的模型,但這個模型一定是端到端、多模態的模型,這樣它的延遲纔會降到很低,情緒也會非常飽滿,容易控制。

無界方舟自研探索出來的理想解決方案|圖片來源:無界方舟

第二,我們需要一條傳輸鏈路 WebRTC,相當於我跟AI做視頻聊天,視頻流、音頻流會不斷往雲上傳輸。這裡最難的是模型,本質上多模態的端到端模型,它的算法架構不會很難,難點在於它的數據來源。因爲需要用音頻到音頻、音頻圖片到音頻的數據,如果找人打標或做錄製,成本會非常高,所以我們前期花了很多功夫在合成數據上。

無界方舟多模態基礎模型架構|圖片來源:無界方舟

通過以下視頻,我們可以看到目前模型的效果。在實時音視頻下,可做到 400 毫秒極低延遲反饋,展現出較高的智商、情商,有豐富的情緒表達,有 21 種多語言能力,可驅動虛擬形象和硬件的動作。

無界方舟在極客公園 IF2025 展會現場的實拍錄像|視頻來源:無界方舟

我們認爲應用多模態、端到端的模型,是做好AI實時交互的必經之路。除了剛纔介紹的特性以外,還有更多延展性。

這是我們目前正在做的兩個探索型項目,對齊的是其他模態。比如左手邊這個對齊的是寵物語言,當然不是真正的寵物語言,是訓練師對狗狗叫聲的理解;右側是我們跟腦機接口的廠商正在做的探索項目,目前有一些初步的結果,腦信號可以跟文字進行 Alignment。

無界方舟多模態基礎模型的潛在擴展性|圖片來源:無界方舟

我們再來看個人基礎智能體的第二個維度,個性化記憶。傳統大模型的記憶是比較簡單的,或者是用簡單的向量數據庫把上下文儲存下來。我們認爲 AI 與人的很多交互片段需要一個完整的記憶系統去構建,業界目前正在往這塊做深耕,有很多記憶型的產品。

對我們來說,我們希望去構建一個單獨的記憶層——AutoMind。在這個記憶層裡,我們分兩種格式記錄記憶,其中一種是存儲型的,比如用知識圖譜、參數化記憶。

AutoMind 個性化記憶系統|圖片來源:無界方舟

這個產品界面,展示了我同事過去三個月跟 AI 互動的所有信息和記憶片段。這個模型會爲每個用戶構建 AutoMind 記憶系統,結合我們的大模型,它的回答會高度個性化。在我們開源的工作中,我們甚至可以將記憶系統放在端側,這樣它可以實現完全的隱私保護。

AutoMind 個性化記憶層|圖片來源:無界方舟

第三個是整個 Personal Foundation Agent 中最難的維度,Agent 的技能。

我們嘗試去找到一條路徑,可以讓 Agent 在少量的樣本數據或事例中,學會虛擬操作或硬件操作的技能。

Agent Q,學習虛擬世界與現實世界的技能|圖片來源:無界方舟

我們最近有一份工作成果很快就會開源,叫作 Action Q。我們本質上是希望讓 Agent 學會寫一段代碼,這個代碼是跟技能相關的,會有很多路徑的探索、試錯,不管是操作網頁、玩遊戲,還是具身智能的硬件驅動,它都可以學會正確的路徑。

Action Q,一種讓 Agent 學各種「技能」的通用方法|圖片來源:無界方舟

03

基礎智能體的產品與應用

我們目前距達成個人基礎智能體(Personal Foundation Agent)還有一段路要走。在未來,我們除了持續深耕交互、記憶、技能這三個維度的技術能力外,還會孵化一系列搭載個人基礎智能體的新型硬件產品,牽引個人基礎智能體技術的應用迭代。

無界方舟通過硬件「阿奇」展示其卓越的自研模型能力|圖片來源:極客公園

這裡我想特別介紹一款硬件產品,它叫「阿奇(Arki)」,非常可愛。它有兩種 AI Agent 形態,一種是通過手機 App 直接體驗,我可以讓它幫我解決工作、生活上的問題;另一種是把手機放到底座上,它就會變成一個具象的機器人,可以有各種硬件動作的交互。目前「阿奇」還沒有量產上架,我們通過它向大家展示我們自研的模型技術能力。

此外,我們也正積極尋求與行業優秀夥伴的合作機會,在更多實際應用場景中,融入併發揮我們個人基礎智能體的優勢。

個人基礎智能體的應用場景拓展|圖片來源:無界方舟

最後,我想表達的是,隨着 AI 技術不斷融入我們的生活,智能體的角色正在發生深刻的變化。它們不再只是冷冰冰的任務執行者,而是逐漸成爲能夠理解我們情感、提供個性化服務的溫暖夥伴。

「個人基礎智能體」這個概念,正是基於這樣的背景而誕生的。它強調 AI 不僅要解決實際問題,更要通過陪伴提供情緒價值,使 AI 真正成爲理解和融入用戶生活的夥伴。無論是我們將在明年推出的智能機器人「阿奇」系列,還是與合作伙伴們共同孵化的產品,都是在踐行這一理念。

與之對應的,「企業專家智能體」也不再是一個遙不可及的概念,而是一個正在被積極應用的技術解決方案。AI Agent 助力醫藥、醫療、金融等專業領域降本增效,重塑企業內外部的互動方式,賦予千行百業新的生存和發展空間。

曾曉東在極客公園 IF2025 創新大會|圖片來源:極客公園

隨着技術的不斷進步和應用的持續深化,我們期待着 AI 邁向更高的智能化、情感化層次,這也將爲商業領域帶來前所未有的機遇和挑戰。我們有理由相信,AI Agent 的市場規模將在 2025 年後迅速增長,引領我們進入一個更加智能、人性化的商業新時代。

*頭圖來源:極客公園

本文爲極客公園原創文章,轉載請聯繫極客君微信 geekparkGO

極客一問

你認爲個人基礎智能體,

是不是 Agent 的未來?

天賦覺醒!宇樹發佈 B2-W 工業輪足,最新演示視頻。

點贊關注極客公園視頻號,