李彥宏說大模型幻覺基本消除了,實測文心一言到底怎麼樣?

“如果你要問我,過去這24個月,對行業而言,最大的變化是什麼?那我的回答一定是,大模型基本消除了幻覺,它回答問題的準確性大大地提升了。”在昨日的百度世界大會上,百度董事長李彥宏談及大模型變化時這樣說。

在這背後,增強檢索(RAG)技術功不可沒,大模型會利用檢索到的信息來指導文本或答案的生成,從而極大地提高了內容的質量和準確性。今天,文字層面的RAG已經改善不少,但完全基於大語言模型的文生圖系統,生成的圖片常常“一眼假”,甚至邏輯不合常理。

李彥宏說,今年年初,就在整個中文互聯網都爲Sora而捶胸頓足的時候,百度決定解決圖像生成的幻覺問題,開發了iRAG(image based RAG),也就是檢索增強的文生圖技術。該技術通過將百度搜索的億級圖片資源跟強大的基礎模型能力進行結合,可以生成各種超真實的圖片。

在演講中,他例舉了大衆攬巡汽車飛越長城、愛因斯坦遊遍全世界等文生圖片來印證,iRAG整體效果遠遠超過文生圖的原生系統,去掉了機器味兒。

文心一言的文生圖效果到底怎麼樣?今日第一財經記者做了實測發現,部分圖片確實有着很高的真實度,有一定創意,但總體仍有不小的改善空間,例如,有些特定人物生成並非本人,比如愛因斯坦,而且圖片的機器味兒依然存在,尤其在一些細節,比如數字、文字上,幾乎都是以亂碼居多。

昨天,百度發佈了智能眼鏡,記者請文心一言畫一個蘋果CEO庫克戴着百度眼鏡的圖片,圖片呈現了蘋果的LOGO,但顯然人物並不是庫克本人,只是長相相似,圖片中所戴眼鏡的形狀也並不完全相同。

昨天,李彥宏還通過提示詞, 讓愛因斯坦遊遍全世界,比如悉尼歌劇院、復活節島巨石陣、長城、鳥巢等等,形象逼真。但今天記者在讓AI畫圖霍金和愛因斯坦一起在深秋的老北京胡同裡遛彎,放大圖來看,除了愛因斯坦髮型相似,兩個人物都並非特定人物本身,而且長有亞洲面孔。

當記者提醒AI這兩個人並不是霍金和愛因斯坦本人,請AI重畫後,得到的圖片仍然並非二人。

當我們把畫圖的人物對象變成百度董事長李彥宏,這次AI畫得像多了。AI創作了一張“李彥宏在北京大學門口攤煎餅”的圖片,人物本身和北京大學的建築真實度較高,但是放大圖後可以看到,建築上“北京大學”四個字出現了亂碼,並非真實的文字。

我們讓AI畫了一張馬斯克在故宮喝豆汁的圖片,AI畫的人物很像馬斯克本人,故宮場景也較爲逼真,但放大圖來看,馬斯克喝的並不是豆汁,碗上的文字也是亂碼。

畫一張運動員身穿隊服在長城上打乒乓球的圖片中,無論長城背景還是乒乓球桌,場景的真實還原度很高,但同樣,運動員隊服的數字呈現是亂碼。

我們讓AI作圖發現,數字、文字亂碼的情況出現頻率較高,例如這張貓咪觀看時刻表的圖片中,有正常的數字,但也有亂碼;一張企鵝坐在公園拿着報紙喝咖啡的圖片中,手中的報紙文字也出現了亂碼。

有時,AI還不能夠準確理解人類的想法,比如當希望它創作一張寫實風格的圖片,提示詞爲熱鬧的街區,一位白裙少女坐着一隻巨型貓咪,AI的繪畫結果卻都爲漫畫效果,而且少女並沒有坐在貓咪上,有的圖片是貓咪騎在自行車上,有的是少女和貓咪前後腳走,還有些是少女懷中抱着貓咪。

但是當給出AI更加真實和細節的場景,繪畫的效果好了不少。例如“武康大樓的街頭,一隻巨型貓咪堵在車流擁擠的馬路上,貓爪和汽車一樣大”,這樣超現實主義的作品完成度很高,對於武康大樓等細節還原也不錯。

天冷了,讓AI給東方明珠織一件彩色毛衣,AI完成度較高。

但相似的提示詞換成建築“水立方”,效果卻大打折扣,變成了一位穿着彩色毛衣的男士在水立方前方站立,AI還給水立方織了一件“並不合身”的人類毛衣。

在演講中,李彥宏提到作爲一項基礎技術,iRAG在很多領域都有着很好的應用空間。比如,影視作品、漫畫作品,連續畫本,海報製作等,大幅降低創作成本,“試想一下,如果大衆的海報生成的車型長得像豐田,那可就糟心了。”於是,我們讓AI生成一張汽車海報,雷軍開着小米su7穿越月球,結果顯示場景表達較爲準確,人物形象相似,但一些圖片中汽車和真實的小米su7外形並不相同,小米汽車的LOGO也不夠準確。

接下來我們讓AI畫一個對於小米15手機的展示,場景和動物形象表達準確,但每一張圖中的手機都不一樣,也並不像小米15,其中一張圖的手機大得更像平板電腦。

在創作藝術海報方面,記者讓AI畫一張《只此青綠》演出海報,要求有水墨風格,AI的繪畫基本符合要求,有意境,但放大圖片看,其中一張海報的文字出現了亂碼。