用GPT-4“自我糾錯” OpenAI推出新模型CriticGPT

21世紀經濟報道記者孔海麗、實習生劉清怡 北京報道

在“自我批評”這件事上,AI也要超越人類了。

北京時間6月28日,OpenAI 在其官網發佈最新模型CriticGPT。

該模型基於GPT-4訓練而成,用於識別ChatGPT生成代碼中的錯誤。

傳統上,人工智能開發人員使用一種稱爲“從人類反饋中強化學習”(RLHF)的方法來幫助人類審查員評估大模型的輸出結果。

OpenAI研究員納特·麥卡利斯(Nat McAleese)表示,RLHF的問題在於,隨着模型變得越來越聰明,這項工作也越來越困難。人類需要超越RLHF的東西來校準更先進的系統。

OpenAI想到的解決方案是人工智能。

OpenAI的研究人員訓練了一個名爲CriticGPT的模型來評估ChatGPT的反應。研究人員通過手動將錯誤插入ChatGPT編寫的代碼中並提供反饋示例,教會了CriticGPT如何識別最常見的和一些不太常見的編碼錯誤。

對於爲何要人爲添加錯誤然後編寫反饋示例,而不是直接篩選出錯誤的代碼,OpenAI認爲,如果使用原始、未經修飾的答案,許多答案並不存在嚴重問題,這會降低數據對於改進批評意見的價值。而且如果不控制錯誤的類型,CriticGPT就會輸出自由形式且模糊不清的審查意見。

另外,人類也很難發現CriticGPT遺漏的重要問題,偏好率也可能受到風格因素的影響,並會高估模型性能。

訓練結果顯示,在發現人爲插入的錯誤代碼方面,人類審覈員只能找到25%左右,而CriticGPT的成功率在75%以上,而且CriticGPT給出的審查意見也更全面。在評估自然產生的錯誤代碼方面,63%的情況下,CriticGPT編寫的審查意見比人工編寫的審查意見更受青睞。

不過,人類審查員給出的意見嚴重失誤最少,無用的“挑剔”也最少,這一點是目前CriticGPT難以超越的。

CriticGPT仍存在一些不足之處。CriticGPT是基於ChatGPT較短的響應訓練而成的,這意味着它還難以評估更長、更復雜的任務。此外,CriticGPT不能顯示所有錯誤,並且在某些情況下會誤報,導致人類註釋者在標記數據時出錯。

OpenAI計劃將CriticGPT集成到其RLHF管道中,這意味着openAI的開發人員將擁有自己的生成式人工智能助手,來幫助他們審查人工智能的輸出結果。

值得一提的是,OpenAI 團隊根據CriticGPT訓練成果發佈的論文中,出現了 Jan Leike 的名字,後者曾共同領導了 OpenAI超級對齊團隊。當OpenAI 聯合創始人、首席科學家 Ilya Sutskever 在5月初離職後,Jan Leike 也隨即離開,轉投到OpenAI 的競爭對手Anthropic 。