☰

看完百度的智能體，我突然知道怎麼摸魚了（屏蔽老闆版）

智能體是什麼？

幾個月前，我們大概會模糊地認爲，它是一種AI大模型賦能應用場景的新形態。今天，對概念做進一步的闡釋顯然不那麼重要了，直接上手做就行。

2024年的百度世界大會上，文心智能體平臺（AgentBuilder）展區的工作人員，正極力招呼每一位路過的觀衆來搭一個智能體（又叫“Agent”），“我們已經極大程度減少做一個智能體所用的代碼了”。的確，觀衆不到1分鐘就能“手搓”一個智能體，然後欣慰離開。

熱鬧的智能體展區丨百度世界大會2024

與市面上已有的對智能體的形容不同，百度創始人李彥宏說，智能體就像移動時代的自媒體賬號——首先它的開發門檻足夠低，人人都能上手；另外，它可能會變成AI原生時代裡，內容、信息和服務的新載體。

一切皆可智能體

智能體可以做什麼？

展區內，你可以向“農民院士智能體”請教怎麼播種旱地稻；你會接到“銷售客服智能體”的電話，在對方耐心全面的解答下，心甘情願續費車險；或者寫一段“大聖穿越到現代”的故事，用“文生圖智能體”將它創作成漫畫。

利用智能體文生圖製作的漫畫丨百度世界大會2024

目前，文心智能體平臺上已有分佈在各個行業的15萬家企業和80萬名開發者。

根據應用的方向，李彥宏將智能體分成了4類：公司類（相當於傳統的官網、公衆號、企業號等）、角色類（數字人直播）、工具類（AI寫作、一鍵生成PPT等）、行業類（用於招聘、金融、客服等垂直領域）。

他重點介紹了一款工具類智能體，“自由畫布”。

它真的很自由。這款智能體打通了百度文庫上的公域資料，以及百度網盤上的私域數據，讓找資料、編輯、生成、分享這一流程更加絲滑。

“自由”的另一個體現是，素材不被來源、格式、形式限制。不管是錄音的通話、圖文結合的行業報告，還是發佈會的視頻，都可以被“拖拽”到這塊畫布上，按照用戶需求生成一個全新的富媒體內容。

“自由畫布”太自由了，以至於很難一句話介紹，可以等着體驗一下丨百度世界大會2024

“門檻低，人人可用”是一個前提，“天花板得足夠高，多個智能體協作，才能解決更加複雜的問題”又是另一個前提。對此，百度官宣了秒噠，一個零代碼應用開發平臺（將於明年第一季度上線）。

李彥宏以“爲蘿蔔快跑發佈會搭建活動報名系統”爲例。

輸入需求後，一個負責規劃的智能體首先出現，將任務拆解成需求確定、內容生產、工程開發3個步驟，並且分別“召集”了“策劃”“文案”“程序員”“質檢員”等智能體分頭開展工作。

“程序員”在敲代碼時，李彥宏說，“它寫什麼你完全不需要看懂，只要知道它在寫就行”，因爲寫完之後會有“質檢員”來檢查代碼能不能跑得通。

正在製作電子邀請函的秒噠丨百度世界大會2024

無代碼編程、基於文心大模型的思考和規劃能力對多智能體調度和編排、大模型對iRAG/地圖API等多工具調用——這些能力將會讓“秒噠”成爲迄今爲止最複雜的多智能體協作工具。

圖片幻覺“消失術”

“去世界各地打卡”，這是生圖工具出現之後，大家最喜歡的應用之一，哪怕是在百度世界大會現場，“AI合照”依然是最熱鬧的展臺。

但怕就怕在，讓AI生成一張打卡北京天壇的照片，結果把原本3層的祈年殿畫成了4層，鬧了笑話。

過去的AI生成了4層的祈年殿照片丨百度世界大會2024

這是因爲，大模型是個概率模型，用它生成的內容具有不確定性。爲了解決大模型本身的“幻覺”問題，這裡需要提到一個技術——RAG。當大模型“知識儲備”有限時，可以通過一些工程化手段（比如聯網檢索、知識庫搜索等），先把相關信息找出來，再指導大模型進行回答，從而大大提升回覆質量。

過去的RAG主要做在文本層面，但在圖像等多模態方面還結合得不夠，導致AI繪圖常常也有“幻覺”的問題。因此百度開發了iRAG（image based RAG），也就是檢索增強的文生圖技術，將百度搜索積累的億級圖片資源和大模型能力相結合。

百度CTO王海峰簡要介紹了iRAG技術：

首先，大模型對用戶的需求進行分析理解，自動規劃精確或泛化方案，比如對哪些實體進行增強；

接着，對需要增強的實體檢索並選擇相應的參考圖；

最後，在生成階段利用自研的多模可控生圖大模型，一方面通過局部注意力計算，在保持實體特徵不變的情況下，實現了圖像的高泛化生成，另一方面通過整體注意力計算進行高精確的圖像生成。

在用戶的視角里，我們看到在iRAG技術下生成的“愛因斯坦打卡照”，少了“機器味兒”，“愛因斯坦”也更像本人——可以想象，在“特定背景中的特定人物拿着特定產品”這樣的描述下，生成圖像的質量和精確度一定會提升不少。李彥宏打趣說，“如果大衆的海報生成的車型長得像豐田，那可就糟心了”。

用iRAG技術生成的“大衆攬巡飛越長城”的寫實風格照片，細節都很真實丨百度世界大會2024

放大看車型和車標，都沒有錯誤丨百度世界大會2024

無幻覺、超真實、沒成本、立等可取——具備了這些要素，AI生圖就能代替以往爲品牌拍一幅海報所花費的人力和財力成本，AI圖片開始有了商業價值。

AI眼鏡，讓智能助理隨身攜帶

不少人認爲，如果大模型和智能體不能與物理世界產生連接，那麼就等於沒有價值。代表傳統發佈會的“實感”被留到了最後公佈。這一次，搭載小度的不是智能音箱，而是一款AI眼鏡。

發佈會上，小度科技CEO李瑩戴的就是它丨百度世界大會2024

作爲“全球首款搭載中文大模型的原生AI眼鏡”，它主打6個功能。

第一視角拍攝。

看到稍縱即逝、來不及掏出手機拍照的時刻，是不是特別希望眼睛有截圖功能？有第一視角拍攝功能的眼鏡就能做到——拍照、錄像，都可以通過語音控制。眼鏡畢竟輕（小度AI眼鏡自重45g），人也可能在運動中，因此這款眼鏡搭載了AI防抖算法，據小度科技CEO李瑩介紹，防抖做到了“完美”；在鏡頭性能上，這個豆子大小的鏡頭用到了1600萬像素的超廣角——像素級別比剛出的iPhone 16前置攝像頭高點兒。

適合在運動時候拍攝第一視角照片、視頻丨百度世界大會2024

邊走邊問。

這個功能運用場景大多在室外。比如走在路上看見漂亮的歷史建築，請它來說說背後的故事，相當於僱了個“戳一下蹦躂一下”的AI導遊。需要說一下的是，AI的回答是通過眼鏡腿上的麥克風傳出的。

“邊走邊問”的導遊功能丨百度世界大會2024

識物百科。

有點類似於“邊走邊問”，但使用場景更廣泛，包括但不限於識別花鳥蟲魚，甚至可以識別你面前一桌飯菜裡大概含多少卡路里。這個功能確實是把百度的數據庫優勢物盡其用了。

識物百科在看展時候的應用丨百度世界大會2024

視聽翻譯。

發佈會介紹不多，不太清楚這個翻譯能做到什麼程度，是隻能翻譯面前的外文文字，還是能做到同聲傳譯？我們姑且保持期待。

發佈會的介紹視頻裡只有閱讀外文文字的翻譯方式丨百度世界大會2024

智能備忘。

李瑩在發佈會中舉的例子是，“閱讀的時候用手點一下，點的內容就能智能備忘了”，至於怎麼點、精確度怎麼樣，還尚不得知。除此之外，應該也可以像同類型產品一樣，連通手機端、平板端的備忘錄，在眼鏡上進行語音提醒。

氛圍歌單。

看起來似乎能結合你眼前的景色，選擇符合氛圍的音樂給你聽。不過，我個人覺得這個功能不太討好——面對同樣的景色，有的人開心的有的人傷感，更別提大家千奇百怪的音樂審美了。

個性推歌這個功能，你怎麼看？丨百度世界大會2024

展會現場，樣品被框在了玻璃罩裡。要等到明年上半年才上市，價格據說是“絕對很有誠意”。更多關於舒適度、使用體驗、近視/遠視友好等細節問題也待回答。

不過這場探討“有價值的AI應用”的發佈會，真是從線上延伸到了物理世界，從虛擬滲透到了現實。

作者：沈知涵，李小葵

編輯：Rex

看完百度的智能體，我突然知道怎麼摸魚了（屏蔽老闆版）

相關資訊