Nature重磅:人類的這一能力,被AI掌握甚至超越了
人們善於學習新概念,並將它們與已有概念進行系統組合。例如,一旦一個孩子學會了如何跳躍,他們可以通過組合技能理解如何向後跳或繞錐形物跳兩次。
這種將新老概念結合的能力被稱爲系統泛化(systematic generalization)。
而此前,Jerry Fodor 和 Zenon Pylyshyn 兩位認知科學家曾主張,人工神經網絡缺乏這種能力,因此不適合作爲人類認知的可靠模型。
然而,一篇發表在 Nature 上的最新研究挑戰了這個已經存在了 35 年的觀點。
在該研究中,紐約大學心理學和數據科學助理教授 Brenden Lake 和西班牙加泰羅尼亞研究所(ICREA)教授 Marco Baroni 提出了一個具有類似人類系統泛化能力的神經網絡。
具體而言,研究團隊使用了一種“組合性元學習(MLC)”的方法來優化組織能力。通過並行比較人類與神經網絡,他們發現,MLC 能掌握、有時甚至能超過類似人類的系統泛化能力。另外,MLC 還在多個系統化泛化基準測試中提高了機器學習系統的組合技能。
該方法可以讓機器與人進行更自然的互動,甚至超過目前最好的 AI 系統。雖然基於大型語言模型(LLMs)的系統(如 ChatGPT)在許多情況下都能很好地進行對話,但在其他情況下卻表現出明顯的缺陷和不一致。
相關論文以“Human-like systematic generalization through a meta-learning neural network”爲題,已發表在權威科學期刊 Nature 上。
研究團隊表示,雖然元學習方法無法讓該神經網絡對訓練之外的任務進行泛化,但他們的研究結果有助於今後開發出行爲更像人類大腦的 AI。
在這項研究中,MLC 方法僅使用了普通的神經網絡,並沒有添加符號機制,也沒有人工設計的內部表示或歸納偏見。
爲了展示 MLC 的能力,研究人員在相同的系統性泛化測試中將人類和機器進行了並行評估。具體來說,他們使用了僞語言中的指令學習任務來檢查人類和機器對結構化代數系統的學習能力,並通過少樣本學習的方式來評估人類的系統性泛化能力。
圖|MLC 架構(來源:該論文)
爲探索人類的歸納偏見以及這些偏見如何促進或妨礙系統性泛化,研究人員通過研究高度模糊的語言來進行評估。在這些評估中,MLC 在實現(甚至超越)人類水平的系統性泛化方面表現出色。
此外,在純粹的代數推理和模擬人類複雜組合行爲的情況下,MLC 均表現出了一種與人類相似的錯誤模式,這顯示出神經網絡不僅具備出色的建模能力,也在模擬複雜的人類行爲方面表現出了卓越的性能。
另外,研究團隊還對兩個廣泛應用的基準測試進行了嘗試,即 SCAN11 和 COGS16,着重關注MLC 在系統性詞彙泛化方面的表現,特別是處理新單詞和單詞組合(而不僅僅是新的句子結構)。結果表明,除了在預測人類行爲方面表現出色,MLC 在機器學習的系統性泛化基準測試中僅出現低於 1% 的錯誤率。
該研究展示了 MLC 如何通過其卓越的組合技能,使一個經過優化的標準神經網絡能夠模仿或甚至超越人類在系統性泛化方面的表現,從而在比較中表現出更強的系統性。相較於經過標準方式訓練的神經網絡,MLC 表現出更細緻入微的行爲。此外,MLC 還讓神經網絡能夠處理其他已知挑戰,如系統性地使用孤立的基元和運用互斥性來推斷含義。
儘管 MLC 取得了一些成功,但它並不能解決所有挑戰。例如,MLC 不能自動處理未經練習的泛化形式或在元學習分佈之外的概念。此外,它無法泛化到它未經優化的歸納偏見中。
在機器學習的語境中,當泛化使新的情節相對於訓練情節處於分佈中時,元學習策略會成功,即使特定的測試項目相對於情節中的研究示例是超出分佈的。然而,僅僅依靠元學習不會使標準網絡能夠泛化到相對於元學習期間呈現的情節而言又超出分佈的情節。當前架構還缺乏發出新符號的機制,儘管可以通過附加的指針機制來引入通過研究示例引入的新符號。
在機器學習背景下,當新情境相對於訓練情境屬於相似分佈時,元學習策略會成功。然而,僅僅依賴元學習並不能讓標準神經網絡實現訓練情景之外的分佈泛化。並且,目前的架構也缺乏一種生成新符號的機制。
最後,MLC 在自然語言的全部複雜性和其他模態上沒有經過測試。因此,它是否能夠在所有方面以及從實際的訓練經驗中實現類似於人類的系統性,仍有待確定。
然而,該研究有望幫助 MLC 解決更廣泛的問題。舉例來說,一個 LLMs 可以進行專門的元學習,通過交替進行標準訓練(例如下一個單詞的預測)和不斷引入新詞彙,從而優化其組合技能。
最後,作者在文中表示:“儘管將 MLC 應用於每個領域是一個長期的努力,但我們看到了在理解人類組合技能的起源以及使現代 AI 系統的行爲更類似於人類方面的真正前景。”