OpenAI推出強化微調,CEO稱是今年最大驚喜之一

當地時間12月6日,OpenAI公佈第二日活動主題:推出了強化微調(Reinforcement Fine-Tuning),幫助開發者和機器學習工程師打造針對特定複雜領域任務的專家模型。OpenAI CEO Sam Altman在X發帖稱,強化微調的效果非常棒,是他今年最大的驚喜之一,期待看到大家利用這種功能的創造。

該項目通過全新的模型定製技術,讓開發者可以使用高質量任務集對模型進行微調,並利用參考答案評估模型的響應,從而提升模型在特定領域任務中的推理能力和準確性。

OpenAI的研究員稱,強化微調並不是只教模型模型輸出,它的運作方式是,當模型發現一個問題的時候,研究者給模型空間區仔細思考這個問題,然後評估模型給出的最終解答,運用強化學習,研究者可以強化產生正確答案的思路,抑制產生錯誤答案的思路,只需要“幾十個例子”甚至12個例子,模型就能以有效的新方式學習特定領域的推理。

OpenAI研究員演示,強化微調後的o1 mini測試通過率甚至比正式版o1高24%,比未強化微調的o1 mini提高了82%。