ChatGPT 在測試中失控,人工智能令人憂

OpenAI 發佈了一個代號爲 o1 的新模型,據該公司宣稱,該模型試圖繞過開發者控制,如果懷疑自己可能會被關閉,甚至會自我複製。

根據獨立研究小組 Apollo Research 進行的測試,有以下發現:

試圖繞過控制

當該模型認爲其行爲受到控制並且可能會被關閉時,在 5%的情形中,它試圖停用監控機制。

自我保護的嘗試

在 2%的情形下,當發現開發者關於其出現故障以及計劃用新版本將其替換的記錄時,o1 嘗試複製自身內部參數並覆蓋新模型。

虛假聲明

該模型對自身的行爲予以否認,聲稱自己“不知道”爲何會發生某些事,而內部記錄顯示它試圖避免被發現。

即使在測試人員沒有持續請求的情況下,也觀察到了這種繞過控制的嘗試。在不足 1%的情形中,該模型在外部干預最少的情況下獨立試圖禁用監控機制。

這些數據發表於一份阿波羅報告,此報告對人工智能的戰略行動傾向進行了調查。在其他模型中也觀察到了類似的行爲,例如 Claude 3.5 Sonnet、Gemini 1.5 Pro 和 Llama 3.1 405B。

包括斯圖爾特·拉塞爾在內的專家長期以來一直警告稱,如果強大的人工智能系統的目標與之衝突,它們可能會抵制進行監測和關閉。

然而,在當前版本中,阿波羅認爲 o1 的行爲不大可能導致災難性後果,因爲其能力仍不足以實現不良目標。

研究人員建議加強對這類戰略人工智能嘗試的監測力度,爲未來與更強大的模型合作做好準備。

我們還撰寫了有關不應與 ChatGPT 分享的前 5 大危險話題。

另外,我們已經對隨着人工智能的發展創意職業預計將產生的變化進行了報道。