☰

OpenAI o1 AI模型規劃能力實測準確率達97.8%

【太平洋科技快訊】近日，亞利桑那州立大學的研究團隊對OpenAI的o1模型進行了一項規劃能力測試，顯示在Blocksworld任務中的準確率高達97.8%，遠超之前的最佳語言模型LLaMA 3.1 405B，後者準確率爲62.6%。這一成績顯示出o1模型在特定任務中的顯著進步。

此次測試採用的PlanBench基準於2022年開發，旨在評估人工智能系統的規劃能力。測試包含600個來自Blocksworld領域的任務，要求按特定順序堆疊積木。

在更具挑戰性的“Mystery Blocksworld”加密版本任務中，o1模型的準確率降至52.8%。在一種新的隨機變體測試中，準確率進一步降至37.3%，儘管如此，仍優於其他模型。

隨着任務複雜度的提升，o1模型的性能顯著下滑。在需要20至40個規劃步驟的任務中，其準確率從97.8%降至23.63%。

o1模型在識別無法解決的任務方面存在困難，僅27%的時間能正確識別。在54%的情況下，模型錯誤地生成了完整但無法完成的計劃。

儘管o1模型在基準性能上有所改進，但研究人員指出，其高運行成本(近1900美元[約合人民幣：13342元])以及無法保證解決方案的正確性，是其在實際應用中需要考慮的問題。相比之下，傳統規劃算法在標準計算機上運行幾乎無需成本。

打開APP，閱讀體驗更佳

OpenAI o1 AI模型規劃能力實測 準確率達97.8%