☰

用GPT-4“自我糾錯” OpenAI推出新模型CriticGPT

21世紀經濟報道記者孔海麗、實習生劉清怡北京報道

在“自我批評”這件事上，AI也要超越人類了。

北京時間6月28日，OpenAI 在其官網發佈最新模型CriticGPT。

該模型基於GPT-4訓練而成，用於識別ChatGPT生成代碼中的錯誤。

傳統上，人工智能開發人員使用一種稱爲“從人類反饋中強化學習”(RLHF)的方法來幫助人類審查員評估大模型的輸出結果。

OpenAI研究員納特·麥卡利斯(Nat McAleese)表示，RLHF的問題在於，隨着模型變得越來越聰明，這項工作也越來越困難。人類需要超越RLHF的東西來校準更先進的系統。

OpenAI想到的解決方案是人工智能。

OpenAI的研究人員訓練了一個名爲CriticGPT的模型來評估ChatGPT的反應。研究人員通過手動將錯誤插入ChatGPT編寫的代碼中並提供反饋示例，教會了CriticGPT如何識別最常見的和一些不太常見的編碼錯誤。

對於爲何要人爲添加錯誤然後編寫反饋示例，而不是直接篩選出錯誤的代碼，OpenAI認爲，如果使用原始、未經修飾的答案，許多答案並不存在嚴重問題，這會降低數據對於改進批評意見的價值。而且如果不控制錯誤的類型，CriticGPT就會輸出自由形式且模糊不清的審查意見。

另外，人類也很難發現CriticGPT遺漏的重要問題，偏好率也可能受到風格因素的影響，並會高估模型性能。

訓練結果顯示，在發現人爲插入的錯誤代碼方面，人類審覈員只能找到25%左右，而CriticGPT的成功率在75%以上，而且CriticGPT給出的審查意見也更全面。在評估自然產生的錯誤代碼方面，63%的情況下，CriticGPT編寫的審查意見比人工編寫的審查意見更受青睞。

不過，人類審查員給出的意見嚴重失誤最少，無用的“挑剔”也最少，這一點是目前CriticGPT難以超越的。

CriticGPT仍存在一些不足之處。CriticGPT是基於ChatGPT較短的響應訓練而成的，這意味着它還難以評估更長、更復雜的任務。此外，CriticGPT不能顯示所有錯誤，並且在某些情況下會誤報，導致人類註釋者在標記數據時出錯。

OpenAI計劃將CriticGPT集成到其RLHF管道中，這意味着openAI的開發人員將擁有自己的生成式人工智能助手，來幫助他們審查人工智能的輸出結果。

值得一提的是，OpenAI 團隊根據CriticGPT訓練成果發佈的論文中，出現了 Jan Leike 的名字，後者曾共同領導了 OpenAI超級對齊團隊。當OpenAI 聯合創始人、首席科學家 Ilya Sutskever 在5月初離職後，Jan Leike 也隨即離開，轉投到OpenAI 的競爭對手Anthropic 。

用GPT-4“自我糾錯” OpenAI推出新模型CriticGPT

相關資訊