Meta 人工智能主管:世界模型十年達成人類智能

如今的人工智能模型真的像人類大腦那樣進行記憶、思考、規劃和推理嗎?一些人工智能實驗室會讓您覺得它們是(這樣的),但據 Meta 的首席人工智能科學家楊立昆(Yann LeCun)所說,答案是否定的。不過,他認爲通過追求一種名爲“世界模型”的新方法,我們可能在十年左右實現這一目標。

今年早些時候,OpenAI 發佈了一項它稱之爲“記憶”的新功能,使 ChatGPT 能夠“記住”您的對話。該初創公司的 最新一代模型 o1,在生成輸出時會顯示“思考”這個詞,並且 OpenAI 表示同樣的模型能夠進行“複雜推理”。

這一切聽起來我們似乎已經相當接近通用人工智能(AGI)了。然而,在最近在哈德遜論壇的一次演講中,楊立昆削弱了人工智能樂觀主義者的觀點,比如 xAI 創始人埃隆·馬斯克(Elon Musk)和谷歌 DeepMind 聯合創始人肖恩·萊格(Shane Legg),他們認爲人類水平的人工智能即將到來。

“我們需要能夠理解世界的機器;[機器]能夠記住事物,具有直覺,有常識,能夠像人類一樣推理和規劃,”楊立昆在演講中說道。“不管您從一些最爲熱情的人那裡所聽到的,當前的人工智能系統都無法做到這些。”

勒孔表示,如今像爲 ChatGPT 和 Meta AI 提供支持的那些大型語言模型,遠未達到“人類水平的人工智能”。他隨後表示,人類要實現這樣的目標可能還需要“數年到數十年”。(不過,這並不能阻止他的老闆馬克·扎克伯格問他通用人工智能何時會出現。)

原因非常簡單:那些大型語言模型通過預測下一個標記(通常是幾個字母或一個短詞)來工作,而如今的圖像/視頻模型則是預測下一個像素。換句話說,語言模型是一維預測器,而人工智能圖像/視頻模型是二維預測器。這些模型在各自的維度上已經變得相當擅長預測,但它們實則並不理解三維世界。

正因如此,現代人工智能系統無法完成大多數人類能夠完成的簡單任務。勒孔指出,人類在 10 歲時就學會清理餐桌,17 歲時學會開車——而且都是在幾個小時內學會的。但即使是當今世界上最先進的人工智能系統,基於數千或數百萬小時的數據構建,也無法在物理世界中可靠運行。

爲了完成更復雜的任務,勒存建議我們需要構建能夠感知周圍世界的三維模型,並以一種新型的人工智能架構——世界模型爲核心。

“世界模型是你對世界運行方式的心理模型,”他解釋道。“你可以想象一系列你可能採取的行動,你的世界模型將使你能夠預測這一系列行動對世界的影響。”

想想你自己腦海中的“世界模型”。例如,想象看着一間凌亂的臥室並想把它弄乾淨。你可以想象把所有衣服撿起來放好就能搞定。你不需要嘗試多種方法,也不需要先學習如何打掃房間。你的大腦觀察三維空間,並在第一次嘗試時就制定出實現目標的行動計劃。那個行動計劃就是人工智能世界模型所承諾的關鍵所在。

這裡的部分好處在於,世界模型能夠接收的數據量遠遠超過大型語言模型。這也使得它們的計算量很大,這就是爲什麼 雲服務提供商正在競相與人工智能公司合作。

世界模型是幾個人工智能實驗室正在追逐的大想法,這個術語正迅速成爲吸引風投資金的下一個熱門詞彙。包括李飛飛和賈斯汀·約翰遜在內的一羣備受尊敬的人工智能研究人員,剛剛爲他們的初創公司 籌集了 2.3 億美元,即 World Labs。這位“人工智能教母”和她的團隊也堅信世界模型將解鎖出更智能的 AI 系統。OpenAI 還將其未發佈的 Sora 視頻生成器描述爲一個世界模型,但尚未詳細說明。

LeCun 在 2022 年一篇關於“目標驅動的人工智能”的 論文中概述了使用世界模型創建人類水平的人工智能的想法,儘管他指出這個概念已經有 60 多年的歷史了。簡而言之,世界的基本表示(例如一個髒亂房間的視頻)和記憶被輸入到一個世界模型中。然後,世界模型根據這些信息預測世界將會是什麼樣子。然後你給世界模型設定目標,包括你想要實現的世界的改變狀態(比如一個乾淨的房間)以及保障措施,以確保模型在實現目標的過程中不會傷害人類(在打掃我房間的時候,可別把我給害了)。然後世界模型找到實現這些目標的行動序列。

勒昆稱,Meta 的長期人工智能研究實驗室,即 FAIR 或基礎人工智能研究,正在積極致力於構建目標驅動型人工智能和世界模型。FAIR 過去曾爲 Meta 即將推出的產品從事人工智能工作,但勒昆表示,該實驗室近年來已轉而純粹專注於長期人工智能研究。勒昆說,FAIR 如今甚至都不使用大型語言模型。

世界模型是一個有趣的想法,但勒昆表示,在將這些系統變爲現實這一方面,我們尚未取得太多進展。從我們如今所處的位置到實現目標存在很多非常困難的問題,他說這肯定比我們想象的要複雜得多。

“即便不需要十年,我們也得需要數年時間才能讓這裡的一切運轉起來,”勒昆說。“馬克·扎克伯格一直問我需要多長時間。”