看完百度的智能體,我突然知道怎麼摸魚了(屏蔽老闆版)
智能體是什麼?
幾個月前,我們大概會模糊地認爲,它是一種AI大模型賦能應用場景的新形態。今天,對概念做進一步的闡釋顯然不那麼重要了,直接上手做就行。
2024年的百度世界大會上,文心智能體平臺(AgentBuilder)展區的工作人員,正極力招呼每一位路過的觀衆來搭一個智能體(又叫“Agent”),“我們已經極大程度減少做一個智能體所用的代碼了”。的確,觀衆不到1分鐘就能“手搓”一個智能體,然後欣慰離開。
熱鬧的智能體展區丨百度世界大會2024
與市面上已有的對智能體的形容不同,百度創始人李彥宏說,智能體就像移動時代的自媒體賬號——首先它的開發門檻足夠低,人人都能上手;另外,它可能會變成AI原生時代裡,內容、信息和服務的新載體。
一切皆可智能體
智能體可以做什麼?
展區內,你可以向“農民院士智能體”請教怎麼播種旱地稻;你會接到“銷售客服智能體”的電話,在對方耐心全面的解答下,心甘情願續費車險;或者寫一段“大聖穿越到現代”的故事,用“文生圖智能體”將它創作成漫畫。
利用智能體文生圖製作的漫畫丨百度世界大會2024
目前,文心智能體平臺上已有分佈在各個行業的15萬家企業和80萬名開發者。
根據應用的方向,李彥宏將智能體分成了4類:公司類(相當於傳統的官網、公衆號、企業號等)、角色類(數字人直播)、工具類(AI寫作、一鍵生成PPT等)、行業類(用於招聘、金融、客服等垂直領域)。
他重點介紹了一款工具類智能體,“自由畫布”。
它真的很自由。這款智能體打通了百度文庫上的公域資料,以及百度網盤上的私域數據,讓找資料、編輯、生成、分享這一流程更加絲滑。
“自由”的另一個體現是,素材不被來源、格式、形式限制。不管是錄音的通話、圖文結合的行業報告,還是發佈會的視頻,都可以被“拖拽”到這塊畫布上,按照用戶需求生成一個全新的富媒體內容。
“自由畫布”太自由了,以至於很難一句話介紹,可以等着體驗一下丨百度世界大會2024
“門檻低,人人可用”是一個前提,“天花板得足夠高,多個智能體協作,才能解決更加複雜的問題”又是另一個前提。對此,百度官宣了秒噠,一個零代碼應用開發平臺(將於明年第一季度上線)。
李彥宏以“爲蘿蔔快跑發佈會搭建活動報名系統”爲例。
輸入需求後,一個負責規劃的智能體首先出現,將任務拆解成需求確定、內容生產、工程開發3個步驟,並且分別“召集”了“策劃”“文案”“程序員”“質檢員”等智能體分頭開展工作。
“程序員”在敲代碼時,李彥宏說,“它寫什麼你完全不需要看懂,只要知道它在寫就行”,因爲寫完之後會有“質檢員”來檢查代碼能不能跑得通。
正在製作電子邀請函的秒噠丨百度世界大會2024
無代碼編程、基於文心大模型的思考和規劃能力對多智能體調度和編排、大模型對iRAG/地圖API等多工具調用——這些能力將會讓“秒噠”成爲迄今爲止最複雜的多智能體協作工具。
圖片幻覺“消失術”
“去世界各地打卡”,這是生圖工具出現之後,大家最喜歡的應用之一,哪怕是在百度世界大會現場,“AI合照”依然是最熱鬧的展臺。
但怕就怕在,讓AI生成一張打卡北京天壇的照片,結果把原本3層的祈年殿畫成了4層,鬧了笑話。
過去的AI生成了4層的祈年殿照片丨百度世界大會2024
這是因爲,大模型是個概率模型,用它生成的內容具有不確定性。爲了解決大模型本身的“幻覺”問題,這裡需要提到一個技術——RAG。當大模型“知識儲備”有限時,可以通過一些工程化手段(比如聯網檢索、知識庫搜索等),先把相關信息找出來,再指導大模型進行回答,從而大大提升回覆質量。
過去的RAG主要做在文本層面,但在圖像等多模態方面還結合得不夠,導致AI繪圖常常也有“幻覺”的問題。因此百度開發了iRAG(image based RAG),也就是檢索增強的文生圖技術,將百度搜索積累的億級圖片資源和大模型能力相結合。
百度CTO王海峰簡要介紹了iRAG技術:
首先,大模型對用戶的需求進行分析理解,自動規劃精確或泛化方案,比如對哪些實體進行增強;
接着,對需要增強的實體檢索並選擇相應的參考圖;
最後,在生成階段利用自研的多模可控生圖大模型,一方面通過局部注意力計算,在保持實體特徵不變的情況下,實現了圖像的高泛化生成,另一方面通過整體注意力計算進行高精確的圖像生成。
在用戶的視角里,我們看到在iRAG技術下生成的“愛因斯坦打卡照”,少了“機器味兒”,“愛因斯坦”也更像本人——可以想象,在“特定背景中的特定人物拿着特定產品”這樣的描述下,生成圖像的質量和精確度一定會提升不少。李彥宏打趣說,“如果大衆的海報生成的車型長得像豐田,那可就糟心了”。
用iRAG技術生成的“大衆攬巡飛越長城”的寫實風格照片,細節都很真實丨百度世界大會2024
放大看車型和車標,都沒有錯誤丨百度世界大會2024
無幻覺、超真實、沒成本、立等可取——具備了這些要素,AI生圖就能代替以往爲品牌拍一幅海報所花費的人力和財力成本,AI圖片開始有了商業價值。
AI眼鏡,讓智能助理隨身攜帶
不少人認爲,如果大模型和智能體不能與物理世界產生連接,那麼就等於沒有價值。代表傳統發佈會的“實感”被留到了最後公佈。這一次,搭載小度的不是智能音箱,而是一款AI眼鏡。
發佈會上,小度科技CEO李瑩戴的就是它丨百度世界大會2024
作爲“全球首款搭載中文大模型的原生AI眼鏡”,它主打6個功能。
第一視角拍攝。
看到稍縱即逝、來不及掏出手機拍照的時刻,是不是特別希望眼睛有截圖功能?有第一視角拍攝功能的眼鏡就能做到——拍照、錄像,都可以通過語音控制。眼鏡畢竟輕(小度AI眼鏡自重45g),人也可能在運動中,因此這款眼鏡搭載了AI防抖算法,據小度科技CEO李瑩介紹,防抖做到了“完美”;在鏡頭性能上,這個豆子大小的鏡頭用到了1600萬像素的超廣角——像素級別比剛出的iPhone 16前置攝像頭高點兒。
適合在運動時候拍攝第一視角照片、視頻丨百度世界大會2024
邊走邊問。
這個功能運用場景大多在室外。比如走在路上看見漂亮的歷史建築,請它來說說背後的故事,相當於僱了個“戳一下蹦躂一下”的AI導遊。需要說一下的是,AI的回答是通過眼鏡腿上的麥克風傳出的。
“邊走邊問”的導遊功能丨百度世界大會2024
識物百科。
有點類似於“邊走邊問”,但使用場景更廣泛,包括但不限於識別花鳥蟲魚,甚至可以識別你面前一桌飯菜裡大概含多少卡路里。這個功能確實是把百度的數據庫優勢物盡其用了。
識物百科在看展時候的應用丨百度世界大會2024
視聽翻譯。
發佈會介紹不多,不太清楚這個翻譯能做到什麼程度,是隻能翻譯面前的外文文字,還是能做到同聲傳譯?我們姑且保持期待。
發佈會的介紹視頻裡只有閱讀外文文字的翻譯方式丨百度世界大會2024
智能備忘。
李瑩在發佈會中舉的例子是,“閱讀的時候用手點一下,點的內容就能智能備忘了”,至於怎麼點、精確度怎麼樣,還尚不得知。除此之外,應該也可以像同類型產品一樣,連通手機端、平板端的備忘錄,在眼鏡上進行語音提醒。
氛圍歌單。
看起來似乎能結合你眼前的景色,選擇符合氛圍的音樂給你聽。不過,我個人覺得這個功能不太討好——面對同樣的景色,有的人開心的有的人傷感,更別提大家千奇百怪的音樂審美了。
個性推歌這個功能,你怎麼看?丨百度世界大會2024
展會現場,樣品被框在了玻璃罩裡。要等到明年上半年才上市,價格據說是“絕對很有誠意”。更多關於舒適度、使用體驗、近視/遠視友好等細節問題也待回答。
不過這場探討“有價值的AI應用”的發佈會,真是從線上延伸到了物理世界,從虛擬滲透到了現實。
作者:沈知涵,李小葵
編輯:Rex