OpenAI 推出“強化微調”計劃,讓創建專家大模型更簡單了 | 最前線
文 | 王方玉
編輯 | 蘇建勳
12月7日北京時間凌晨兩點,OpenAI公司帶來了連續12天發佈會的第二場直播。
本次直播中,OpenAI帶來了新的方案——強化微調(Reinforcement Fine-Tuning)。該方案和功能預計將於2025年正式推出。
強化微調是一種全新的模型定製方法,它將一個預訓練好的通用模型,通過在特定領域的小規模數據集上進一步訓練,使其適應特定任務的技術。簡單來說就是在一個“學過很多東西”的大模型上,再讓它針對某個具體任務“重點練習”,讓它更適合做這件事。
OpenAI 高管介紹稱,強化微調可以將大型語言模型從“高中水平”提升至“博士級專家”的能力,適合高校、研究人員和企業打造獨特的 AI 解決方案。例如OpenAI正在與湯森路透合作,打造專屬於該公司的法律專業模型。
沒有參與本場直播的OpenAI CEO Sam Altman在社交媒體表上:“效果一級棒,是我2024年最大的驚喜,期待看到人們構建什麼!”
“強化微調讓行業專家大模型的實現變得容易了。”一位AI大模型應用企業的創始人告訴36氪,這是一項和普通用戶關聯不大,但對專業領域工作者很有價值的新方案。
直播現場,OpenAI展示了一個典型的案例——罕見遺傳病研究。
OpenAI 與伯克利實驗室和德國 Charité 醫院的研究人員合作,使用強化微調訓練GPT o1 Mini 模型。該模型學會了有效推理罕見疾病的成因,並在性能上超越了更大的GPT o1模型,展示了其在診斷和理解複雜病情方面的潛力。
值得一提的是,強化微調與此前的微調方式有着顯著差異。與傳統微調不同,強化微調並不是簡單地讓模型“記住答案”,而是通過訓練模型在特定領域中學會推理,找到正確答案。
具體來說,強化微調有兩個不同數據集合,一個是微調數據集,一個是測試數據集合,模型先基於微調數據集合去訓練,然後用測試數據集合驗證,反覆自我推理訓練驗證,最終達到很高的水平。因而強化微調可以實現在數據量有限的情況下(有時僅需幾十個樣本)也能實現顯著性能提升。
不過,強化微調方案目前仍處於研究預覽階段,OpenAI計劃在2025年全面推出。
目前OpenAI正邀請研究機構、大學以及企業參與強化微調研究計劃。OpenAI希望與願意共享數據集的組織合作,進一步優化模型性能。