智能體首達Kaggle Grandmaster,華爲結構化推理補齊思維鏈短板

機器之心報道

編輯:Panda

前些時日,AI 大模型開始掌握操作計算機的能力,但整體而言,它們與物理世界互動的能力仍處於早期階段。

爲了提高 LLM 在複雜的現實世界中的表現,研究者們提出了各種提示策略來提升大模型的推理和規劃能力,比如思維鏈、思維樹和思維圖譜。這些進步與工具集成一起,推動着通用 AI 智能體的發展,讓它們現在已經能夠用 LLM 輸出的決策策略來解決序列決策問題(不過依然還相對簡單)。

在現實世界中,一個難題的解決方案往往都不是孤立存在的,而需要系統性的方法。這就促使人們開始研究如何讓 LLM 通過順序或並行模塊處理智能體任務,從而動態地、分步驟地解決問題。

近日,華爲諾亞方舟實驗室、倫敦大學學院(UCL)和達姆施塔特工業大學的一個研究團隊在這個研究方向上做出了自己的貢獻。他們採用第一性原理方法,將數據的分析、處理和預測(即數據科學)作爲 LLM 與現實世界環境和外部系統交互的核心和可遷移技能,得到了一種利用 LLM 解決系統數據科學任務複雜性的新方法。然後他們基於此開發了智能體 Agent K v1.0,並讓其參加了多模態 Kaggle 競賽。最終 Agent K v1.0 獲得了相當於 6 金 3 銀 7 銅的成績,成爲首個達到 Kaggle Grandmaster level 1 的 AI 智能體。

研究動機

這項研究有三個研究動機。

第一,數據科學的目的是從結構化和非結構化數據中提取見解和知識,從而解決各種複雜問題。這需要系統級的方法,需要自動化和優化來適應具體的任務目標。

舉個例子,在 Kaggle 數據科學競賽中(如圖 1 所示),數據科學家需要遵循一個結構化的工作流程:收集、清理、預處理和標準化數據,創建數據加載器以實現高效管理,生成關鍵評估指標,以及開發自定義模型。然後,這些見解和預測可以爲決策和優化提供信息。因此,爲了解決這些工作流程,需要數據科學智能體將任務分解爲子問題並與各種子系統交互以實現指定目標。

第二,數據能讓 LLM 感知和理解外部環境(物理和虛擬皆可)。LLM 智能體可通過收集、清理和分析這些數據來獲得有意義的見解並做出明智的決策。數據和動作之間的這種基本聯繫可將計算推理與有形的現實世界後果聯繫起來。

第三,數據科學對企業而言至關重要。數據科學可將原始數據轉換成可行動的見解,並由此提升效率和競爭力,進而推動創新。因此,據 Grand View Research 預計,到 2031 年,全球對數據科學的投資將達到約 7400 億美元。數據科學智能體可通過生成代碼來自動執行數據清理、建模和預測等任務,從而擴大這種影響,使組織能夠擴展其數據驅動的決策,以最大化回報和利潤。

結構化推理造就強大數據科學智能體

華爲諾亞方舟實驗室首先確定了 LLM 智能體面臨的兩大難題,即自動化和優化。這些難題源自數據科學工作流程的複雜性和多面性。

爲此,該團隊提出了一種利用 LLM 解決系統數據科學任務複雜性的新方法。

具體來說,他們提出了一種靈活的「學習到推理」範式,從而無需反向傳播和微調就能實現學習和適應。

該團隊假設 LLM 具有固有的基於案例的推理能力,這讓它們可使用過去的正例或負例經驗,並將其泛化到新任務。通過優化這些經驗,學習和適應可以自然地發生。

爲了將這一觀察利用起來,該團隊提出了結構化推理(structured reasoning),其中集成了一個記憶模塊,從而可以動態地利用過去的成功和失敗經驗來實現更據適應性的學習。這能克服思維鏈等方法的侷限性。如圖 2 所示。

左側是基本思維鏈推理,其按順序生成中間步驟,其中每個步驟都是下一步驟的直接條件,直到得到最終答案。

右側是新提出的結構化推理方法,它引入了一個記憶模塊(作爲 RAG 或長上下文的一種形式),可以根據外部獎勵和反饋進行優化。該模塊可根據環境反饋動態地修改存儲的內容,讓智能體可在不改變底層 LLM 參數的情況下學習和適應,進而根據具體目標最大限度地提高性能(有效性和自動化)。

有了結構化推理之後,LLM 智能體可在內部重構自身,通過靈活和內在的(智能體內部的)自我反思功能實現主動推理,並在採取外部行動之前主動適應。

他們將這個智能體稱爲Agent K v1.0,這是他們的結構化推理框架 Pangu-Agent 的一個擴展,但它也是專門爲應對數據科學挑戰設計的。

該團隊爲 Agent K v1.0 引入了新的內部函數類別,以便在自動解決數據科學任務之前自動設置它們。他們還引入了另一組可與外部工具(如超參數優化算法、集成方法、計算機視覺和自然語言處理庫)協作的內部函數,從而可以最佳方式構建解答。

下圖展示了 Agent K v1.0 實現自動設計、編程和執行所需的整體數據科學工作流程:首先從一個 Kaggle URL 開始,再生成執行代碼清理、特徵工程、模型創建和優化訓練的複雜代碼,之後再自動生成一個提交文件,並將其提交給 Kaggle 以獲得分數。

第一階段(自動化):設置數據科學任務

由於數據科學任務的數據類型和格式繁多,因此設置階段並不輕鬆。圖 4 展示了這個自動設置階段的主要步驟。

在抓取到任務後,該策略又分爲兩個階段:

第二階段(優化):解決數據科學任務

數據科學工作流程的這一部分通常涉及許多步驟,包括生成腳本以預處理輸入、創建各種模型或優化超參數。

由於可以進行多次嘗試,並且每個解決方案都是複合工作流程的結果,因此要實現非常有競爭力的性能,需要能夠推斷每個解決方案組件的優勢和劣勢,並決定修改哪個部分或下一步嘗試什麼。

在這裡,該通過智能體的外部動作將這些決定留給了智能體,並使用針對數據驅動的預測設計量身定製的幾種工具爲其提供支持。

第三階段(泛化):多任務和主動任務選擇

有效的智能體應該有能力解決不同領域的多種任務。該團隊還爲 Agent K v1.0 配備了跨領域的任務求解能力,其做法是將之前的設置泛化到多任務設置。並且,他們注意到了多任務解決方案的不可行性,於是還提出了一種在線持續學習擴展。

下圖展示了 Agent K v1.0 智能體的總體設計。

按照 Kaggle 的設置,Agent K v1.0 只需要自然語言描述和非標準化原始數據即可成功完成任務。在每一輪 j 中,它會根據之前嘗試過的任務的歷史記錄主動選擇要解決的數據科學任務,並將其填充到隨時間變化的向量數據庫 RAG_j 中。這種選擇是策略 π_1 (・) 基於 RAG_j 和一個剩餘任務池執行的。

選擇了任務之後,Agent K v1.0 會使用 π_setup (・) 自動執行標準化、清理任務數據、 準備訓練和測試指標等操作。這個過程同樣基於 RAG_j。

設置完成後,Agent K v1.0 就會嘗試解決任務,這個過程會訪問工具並根據分數反饋進行改進。這些 Python 日誌會對 RAG_j 進行更新,並重復此過程。

競爭性數據科學基準

當前的數據科學智能體缺乏競爭性基準測試,這限制了它們在專業領域的表現。爲此,該團隊也做出了自己的貢獻:基於 Kaggle 競賽構建了一個多樣化且競爭性的數據科學基準,而 Kaggle 提供了 27K 個多樣化數據集、110 萬個筆記本、超過 7.7K 個預訓練機器學習模型和大約 27K 場比賽。

該基準支持在一個透明的排行榜上與人類參與者進行直接比較並涵蓋計算機視覺、自然語言處理、時間序列和表格數據等多種任務,支持多種模態。

下圖展示了該基準中 Kaggle 任務的分佈情況。目前,其中 55% 是表格任務,包括數值、類別、字符串和布爾值表。另外計算機視覺站 24%,自然語言處理佔 10%、多模態任務佔 11%。

下表則是基於 Kaggle 的指南和風格構建的 Kaggle 進展系統。⋆ (Top 10 + 0.2 %) 是指競賽每增加 500 個參賽隊伍,就會額外給出一枚金牌。舉個例子,如果一個競賽有 500 個參賽隊伍,則會給 11 團隊授予金牌。而如果競賽隊伍有 5000 個,則金牌數會達到 20。

實驗和結果

Agent K 表現如何?終究還需看實驗結果。該團隊嚴格測試了 Agent K v1.0(基礎模型使用了 Qwen-2.5 72B)實現完全自動化的能力以及性能。

在自動化方面,他們評估了新系統能否有效地直接根據 Kaggle URL 設置任務。結果,在跨多個領域自動執行任務方面,該系統實現了 92.5% 的準確度,展示了其完全自動化地實現複雜設置的能力。

在性能方面,在多模態挑戰賽中,該團隊的方法實現了相當於 6 金 3 銀 7 銅的成績(共 65 場競賽),成爲了首個達到 Kaggle Grandmaster level 1 水平的方法。下圖展示了 Agent K v1.0 在各個任務上的性能表現。

此外,他們還測量了 Agent K v1.0 與人類參與者的 Elo-MMR 評分。結果表明,在由 5856 名參賽者組成的競賽池中,Agent K v1.0 排名前 38%。

實驗詳情和更多實驗結果以及相關討論請訪問原論文。