OpenAI o1 AI模型規劃能力實測 準確率達97.8%

【太平洋科技快訊】近日,亞利桑那州立大學的研究團隊對OpenAI的o1模型進行了一項規劃能力測試,顯示在Blocksworld任務中的準確率高達97.8%,遠超之前的最佳語言模型LLaMA 3.1 405B,後者準確率爲62.6%。這一成績顯示出o1模型在特定任務中的顯著進步。

此次測試採用的PlanBench基準於2022年開發,旨在評估人工智能系統的規劃能力。測試包含600個來自Blocksworld領域的任務,要求按特定順序堆疊積木。

在更具挑戰性的“Mystery Blocksworld”加密版本任務中,o1模型的準確率降至52.8%。在一種新的隨機變體測試中,準確率進一步降至37.3%,儘管如此,仍優於其他模型。

隨着任務複雜度的提升,o1模型的性能顯著下滑。在需要20至40個規劃步驟的任務中,其準確率從97.8%降至23.63%。

o1模型在識別無法解決的任務方面存在困難,僅27%的時間能正確識別。在54%的情況下,模型錯誤地生成了完整但無法完成的計劃。

儘管o1模型在基準性能上有所改進,但研究人員指出,其高運行成本(近1900美元[約合人民幣:13342元])以及無法保證解決方案的正確性,是其在實際應用中需要考慮的問題。相比之下,傳統規劃算法在標準計算機上運行幾乎無需成本。

打開APP,閱讀體驗更佳