當Sora驚豔業界時,李彥宏爲何選了另一條路?
AI讓一切變得可能。
手工勞動/挖哥
手工編輯 /角叔
出品/獨角獸觀察
一位時尚女性走在充滿溫暖霓虹燈和動畫城市標牌的東京街道上。她穿着黑色皮夾克、紅色長裙和黑色靴子,拎着黑色手提包,戴着墨鏡,塗着紅色口紅。她自信而隨意地走着。街道潮溼且反光,在彩色燈光的照射下形成鏡面效果。許多行人在街上行走。
今年2月,OpenAI的Sora閃亮登場,這段60秒一鏡到底的文生視頻迅速火爆出圈,業界驚呼AI視頻的GPT時刻到了。
國內吃瓜羣衆在感嘆Sora絲滑同時,也開始靈魂拷問:中國何時能有自己的Sora?壓力來到了百度這樣中國人工智能扛旗者身上。
跟還是不跟?
11月12日,在百度世界2024大會上,百度創始人李彥宏給出了答案:“當年初整個中文互聯網都爲Sora捶胸頓足時,我們決定去解決圖像生成的幻覺問題。這個問題看起來更簡單,甚至更枯燥,但是不解決就不會有應用。”
這個取捨多少有些出乎常人意料,畢竟跟Sora相比,這個一點都不“性感”。
放棄大熱的Sora,選擇枯燥的iRAG,李彥宏做對了嗎?
01
取捨
年初,在Sora特別熱的時候,《獨角獸觀察》瞭解到當時百度內部也有過討論,最後的結論是:千萬不能去做Sora,因爲週期太長了,可能要投入10年、20年。無論多火,都不能做。
年底,這個抉擇讓李彥宏站在上海世博中心的演講臺上,底氣十足地宣佈:“過去24個月,這個行業最大的變化是大模型基本消除了幻覺,回答問題的準確性大幅提升。”
李彥宏的底氣來源於百度的一項顛覆性技術iRAG(image based RAG),檢索增強的文生圖技術。
衆所周知,大模型是一個概率模型,生成的內容具有一定不確定性,經常會出現一些胡說八道,讓人哭笑不得的結果。業界把這些由AI產生的不真實、虛構的內容稱爲AI幻覺現象。
李彥宏在現場展示了一張由開源模型生成的北京天壇圖片,看上去很像,但總覺得哪兒又不對。直到對比天壇照片,才發現真正的天壇其實是三層,而模型生成的是四層。
這種李鬼替代李逵的情況,自娛自樂還行,要想變得可用、可信賴、有“人味”,就需要解決幻覺這個問題。
與Sora相比,幻覺問題可能不那麼出彩,但他卻是制約大模型廣泛應用的最大限制之一,幻覺問題不僅影響了AI的實用性,也限制了大模型在很多領域的應用。尤其像醫療、法律這樣需要高度準確性的應用場景,一個小誤差就可能導致嚴重的後果。
AI應用要迎來百花齊放,幻覺問題就是那堵遮擋了陽光,影響花兒成長的厚牆。
所以,從輕重緩急來說,iRAG比Sora的優先級更高。
如果把格局拉大到整個人工智能行業,解決幻覺問題比做出Sora重要,它能幫助更多的應用落地,讓更多人用上AI技術,從而惠及更多行業。
百度檢索增強的文生圖技術iRAG ,通過把自身億級圖片數據和基礎模型能力結合,利用檢索到的信息來指導文本或答案,大大提高了內容的質量和準確性,解決了以往文生圖模型生成圖片“機器味”重、一眼假的問題。
耳聽爲虛,眼見爲實。《獨角獸觀察》在文小言上實測了一輪,生成了下面這組圖片。
▲把蓋茨安排到長城跟關羽搓麻將,就問他怕不怕?
▲手持狙擊槍的林黛玉,你們從來沒見過吧?
▲老年蘇菲瑪索擁抱年輕的自己。
▲“搬家”到沙漠的自由女神像和埃菲爾鐵塔。
▲一個人冒雪上朝的張居正。
▲飛越壺口瀑布的法拉利。
雖然這組奇思妙想的圖片,大多不可能在現實中出現,但由iRAG生成的圖片,元素都非常真實,準確性也非常高,如果不是因爲內容太過“違和”,已經看不出“AI味兒”。
通過iRAG去僞存真後,AI生成圖片的可用性大大提高,應用空間也就隨之打開了。像影視作品、漫畫作品,連續畫本,海報製作等,通過iRAG生圖可以大幅降低創作成本。
比如,一些大品牌的宣傳,拍一組高質量的海報,需要找策劃、模特、攝像等大量人力,消耗大量財力,動輒一個項目都需要少則一二十萬,大則幾十萬,但現在成本接近於0。
李彥宏將iRAG的商業價值總結爲:無幻覺、超真實、沒成本,立等可取。
02
有用
李彥宏今年的演講主題是《應用來了》。
與李彥宏過去1年多對大模型的思考一脈相承,其核心就兩個字:有用。
“沒有構建於基礎模型之上的,豐富的AI原生應用生態,大模型就一文不值。”去年百度世界大會,李彥宏呼籲創業者去做更容易產生價值的應用。
今年,李彥宏把有用“升級”到超級有用:“百度不是要推出一個“超級應用”,而是要不斷地幫助更多人、更多企業打造出數以百萬‘超級有用’的應用。”
正是基於有用的原則,李彥宏捨棄了看上去很華麗的sora,選擇做iRAG去解決幻覺問題,搬走了大模型走向“有用”的最大路障。
“基礎模型能力就緒,我們將迎來AI應用的羣星閃耀時刻。每一個應用都是一顆星,每一個應用都將成爲改變世界的力量。”李彥宏認爲未來有兩大AI應用方向:一個是智能體,另一個是產業應用。
大會現場,百度發佈了基於大模型的100大產業應用,涵蓋了製造、能源、交通、政務、金融、汽車、教育、互聯網等衆多行業。
這宣示着大模型不再是空中樓閣,已開始切切實實在重塑千行百業。
如果說iRAG 讓大模型更有用,秒噠則讓大模型的使用門檻更低。
李彥宏演示了通過秒噠如何搭建一個活動報名系統。
在整個“開發”過程中,李彥宏只是向秒噠描述了需求,小組長、策劃、小編、程序員和質檢員5個智能體互相協作,協同完成策劃、內容和開發等各種工作,他們甚至還能自動識別bug。
無代碼編程、多智能體協作、多工具調用,秒噠不用寫代碼,就能實現任意想法,讓每個人具備程序員的能力。
“我們將迎來一個前所未有的只靠想法就能賺錢的時代。”百度CEO李彥宏說。
這個將於明年一季度上線的工具,對大模型的重要性或許不亞於windows系統對PC普及的意義。
上世紀末,電腦操作系統還是基於文本命令行界面的dos系統,對沒有計算機基礎的用戶非常不友好,windows的圖形界面,大大降低電腦使用門檻,讓電腦真正開始進入尋常百姓家。
03
預見
從2022年chatgpt橫空出世至今,大模型已經火了將近兩年。
這輪全球性的大模型狂熱,究竟是一場新的技術革命,還是新一輪泡沫?
李彥宏和他的百度文心大模型給出了答案:截至 11 月初,百度文心大模型的日均調用量超 15 億,最近半年增長率更是達到7.5倍。
30多年前,還在北大讀書的李彥宏主動選修了人工智能課程,自此就給AI結下了不解之緣,成爲AI的長期信仰者。
去年,在chatgpt後,李彥宏率先發布了國內第一個大模型。
如今,大模型已成了互聯網大廠的“一號工程”。但鮮有像李彥宏這樣的“一號位”還活躍在前臺,不遺餘力大力推介AI。
2023年9月,《時代》週刊發佈了首屆全球百大AI人物,李彥宏被評爲全球AI領袖,和他一起被評選上的還有馬斯克、黃仁勳等。
《時代》評語:“李彥宏是中國最傑出的未來主義者,長期投身於AI發展的浪潮。”
預見未來,讓李彥宏在狂熱的市場裡,總能保持一份“人間清醒”。
去年,當各路人馬蜂擁而入,鏖戰大模型時,李彥宏說“不要卷模型,要卷應用”。事後證明確實不需要這麼多大模型,如今美國還在堅持做基礎大模型也就剩下幾個巨頭。
當應用開始被重視,很多人開始追求C端AI超級爆款,李彥宏說:“大模型對ToB 業務改造,比互聯網對 ToB 的影響力要大一個數量級。”如今,C端的AI“超級APP”依然難尋,ToB 應用百花齊放。
當Sora年初炸場時,李彥宏選擇去解決圖像生成的幻覺問題,收穫了顛覆性技術iRAG。
在最近的一次專訪中,李彥宏詳解了他放棄做Sora的原因,他認爲Sora本質上是在任意場景下的視頻生成能力,這個事情本身是非常有意義的,但同時又非常難,需要很長很長時間才能夠做出來。
一語成讖。
接近年底,Sora依然難產,一些試用Sora的電影製作人體驗後覺得並不太理想,有電影人反饋必須讓模型生成數百個短片,才能找到一個可用的短片。
Sora剛出來時,擔心工作被AI取代,好萊塢影視從業者還爆發了抗議潮。現在,好萊塢已經很久沒有抗議聲了。
跟着別人跑多爲跟風者,耐得住寂寞,堅持自己方向的人才可能成爲追風者。
在李彥宏眼中,人工智能很像是一次新的工業革命,這意味着它不是三五年就結束,不是一兩年就出現“超級應用”的過程,它更像是未來三十、五十年對整個社會一個非常徹底的重構。
在人工智能的這場馬拉松式競賽中,不逞一時之“快”,保持足夠耐心和戰略定力,纔不會掉隊、跑偏。(完)