☰

OpenAI 推出“強化微調”計劃，讓創建專家大模型更簡單了 | 最前線

文 | 王方玉

編輯 | 蘇建勳

12月7日北京時間凌晨兩點，OpenAI公司帶來了連續12天發佈會的第二場直播。

本次直播中，OpenAI帶來了新的方案——強化微調（Reinforcement Fine-Tuning）。該方案和功能預計將於2025年正式推出。

強化微調是一種全新的模型定製方法，它將一個預訓練好的通用模型，通過在特定領域的小規模數據集上進一步訓練，使其適應特定任務的技術。簡單來說就是在一個“學過很多東西”的大模型上，再讓它針對某個具體任務“重點練習”，讓它更適合做這件事。

OpenAI 高管介紹稱，強化微調可以將大型語言模型從“高中水平”提升至“博士級專家”的能力，適合高校、研究人員和企業打造獨特的 AI 解決方案。例如OpenAI正在與湯森路透合作，打造專屬於該公司的法律專業模型。

沒有參與本場直播的OpenAI CEO Sam Altman在社交媒體表上：“效果一級棒，是我2024年最大的驚喜，期待看到人們構建什麼！”

“強化微調讓行業專家大模型的實現變得容易了。”一位AI大模型應用企業的創始人告訴36氪，這是一項和普通用戶關聯不大，但對專業領域工作者很有價值的新方案。

直播現場，OpenAI展示了一個典型的案例——罕見遺傳病研究。

OpenAI 與伯克利實驗室和德國 Charité 醫院的研究人員合作，使用強化微調訓練GPT o1 Mini 模型。該模型學會了有效推理罕見疾病的成因，並在性能上超越了更大的GPT o1模型，展示了其在診斷和理解複雜病情方面的潛力。

值得一提的是，強化微調與此前的微調方式有着顯著差異。與傳統微調不同，強化微調並不是簡單地讓模型“記住答案”，而是通過訓練模型在特定領域中學會推理，找到正確答案。

具體來說，強化微調有兩個不同數據集合，一個是微調數據集，一個是測試數據集合，模型先基於微調數據集合去訓練，然後用測試數據集合驗證，反覆自我推理訓練驗證，最終達到很高的水平。因而強化微調可以實現在數據量有限的情況下（有時僅需幾十個樣本）也能實現顯著性能提升。

不過，強化微調方案目前仍處於研究預覽階段，OpenAI計劃在2025年全面推出。

目前OpenAI正邀請研究機構、大學以及企業參與強化微調研究計劃。OpenAI希望與願意共享數據集的組織合作，進一步優化模型性能。

相關資訊