復刻OpenAIo1推理大模型,強化學習開源代碼LLaMA-O1問世

最近,一款復刻OpenAI o1推理大模型的開源項目LLaMA-O1正式發佈。該項目來自上海 AI Lab(上海人工智能實驗室)團隊,其強化學習代碼的開源,基於LLaMA開源模型和AlphaGo Zero範式,引起了業界的廣泛關注。

LLaMA-O1使用了蒙特卡洛樹搜索、Self-Play強化學習、PPO以及AlphaGo Zero的雙重策略範式(先驗策略+價值評估)。這些技術的應用,使得模型在學習和推理過程中能夠更加高效地獲取知識和提升能力。

早在2024年6月,OpenAI o1發佈之前,團隊就開始探索蒙特卡洛樹搜索提高大模型數學能力。此後,團隊不斷升級算法,專注於數學奧賽問題,將其作爲OpenAI o1的開源版本。10月初,團隊上傳新論文,使用成對優化提高Llama模型數學奧賽能力,在AIME2024基準測試中取得了顯著的進步。10月底,團隊宣佈在基於AlphaGo Zero架構復刻OpenAIo1 的努力中取得重大進展,成功使模型在學習過程中通過與搜索樹交互獲得高級思維能力,無需人工標註。

目前已開源的內容包括預訓練數據集、預訓練模型和強化學習訓練代碼。其中,OpenLongCoT-Pretrain數據集包含10萬+條長思維鏈數據,每條數據包含一個完整的數學問題推理過程,這爲模型的進一步訓練提供了豐富的素材。在預訓練模型基礎上,可以繼續進行強化學習訓練,其訓練過程包括使用蒙特卡洛樹搜索進行自我對弈生成經驗,將經驗存儲在優先經驗回放緩衝區中,從緩衝區採樣批次數據進行訓練,更新模型參數和經驗優先級等步驟。同時,訓練代碼中還使用了LoRA進行參數高效微調、PPO算法作爲策略優化方法、實現GAE算法用於計算優勢函數以及使用優先經驗回放提高訓練效率等關鍵技術點。

除了LLaMA-O1項目外,上海交通大學團隊的o1-Journey項目也在進行OpenAI o1復刻工作,並取得了一定的進展。

LLaMA-O1強化學習開源代碼的問世不僅提供新資源與思路,促進大模型數學推理等能力提升,也有利於降低行業門檻,推動創新與競爭,構建更廣泛生態系統。此外,它還爲數據敏感行業開發垂類模型提供便利,有助於人工智能技術在更多領域落地應用。