對標o1,Kimi放出了最能打的國產模型

機器之心報道

編輯:蛋醬

AI 領域正在經歷新一輪技術範式的變化,預訓練 Scaling Law 放緩之後,推理時間計算成爲了新的性能提升關鍵。

兩個月前,OpenAI o1 的誕生再次引領了大模型技術的突破。從後訓練階段入手,通過更多的強化學習、原生的思維鏈和更長的推理時間,o1 將大模型的能力又往前推了一步。

這段時間,國內大模型初創公司月之暗面的技術攻關經歷了一場加速。

繼 Kimi 探索版 10 月開放之後,這家公司在 11 月 16 日交上又一份答卷:Kimi 的最新一代推理模型 k0-math,在數學能力已實現對標 OpenAI o1-mini 和 o1-preview。

這是 Kimi 推出的首款推理能力強化模型,k0-math 同樣採用了全新的強化學習和思維鏈推理技術,通過模擬人腦的思考和反思過程,大幅提升瞭解決數學難題的能力,可以幫助用戶完成更具挑戰性的數學任務 。

Kimi 創始人楊植麟表示,接下來 k0-math 模型會持續迭代,提升更難題目的解題能力,挑戰數學模型的能力極限。同時,k0-math 數學模型和更強大的 Kimi 探索版,將會分批陸續上線 Kimi 網頁版(kimi.ai)和 Kimi 智能助手 APP。

在 Kimi Chat 全量開放一週年之際,還有一個數字吸引了大家的注意:截至 2024 年 10 月,Kimi 智能助手在 PC 網頁、手機 APP、小程序等全平臺的月度活躍用戶已超過 3600 萬。

數學能力對標 o1,k0-math 的表現如何?

在多項基準能力測試中,k0-math 的數學能力可對標 OpenAI o1 系列公開發布的兩個模型:o1-mini 和 o1-preview。

具體來說,在中考、高考、考研以及包含入門競賽題的 MATH 等 4 個數學基準測試中,k0-math 初代模型成績超過 o1-mini 和 o1-preview 模型:k0-math 模型得分 93.8,o1-mini 爲 90 分, o1-preview 爲 85.5 分。k0-math 的成績僅次於尚未正式上線的 o1 完全版的 94.8 分。

而在兩個難度更大的競賽級別的數學題庫 OMNI-MATH 和 AIME 基準測試中,k0-math 初代模型的表現分別達到了 o1-mini 最高成績的 90% 和 83%。

常規模型的關鍵目標是儘快提供答案。與之不同,在做題過程中,k0-math 模型會花更長的時間來推理,包括思考和規劃思路,並且在必要時自行反思改進解題思路,提升答題的成功率。k0-math 的解題思考過程,常常會讓數學高手也受到啓發。

以這道 AIME 競賽題目爲例,k0-math 模型通過不斷探索和試錯,經歷了八九次失敗,意識到自己之前用了過於複雜的方法,最終得出了正確結果。

不過,需要注意的是,k0-math 模型雖然擅長解答大部分很有難度的數學題,但是當前版本還無法解答 LaTeX 格式難以描述的幾何圖形類問題。

此外,它還有一些侷限性需要突破,包括對於過於簡單的數學問題。例如「1+1=?」,k0-math 模型可能會過度思考。

「意圖增強」等三大推理能力

注入 Kimi 探索版

新的強化學習技術範式帶來的推理能力提升,也將會泛化到更多日常任務上。

在上個月推出的 Kimi 探索版中,月之暗面已將推理能力運用到 AI 搜索任務上,通過模擬人類的推理思考過程,多級分解複雜問題,執行深度搜索,並即時反思改進結果,幫助用戶更高效地完成複雜的搜索調研任務。

據楊植麟介紹,基於強化學習層面的技術創新,Kimi 探索版已在三大推理能力上實現突破:意圖增強、信源分析和鏈式思考。

意圖增強:Kimi 探索版可以將抽象的問題和模糊的概念具體化,拓展用戶的真實搜索意圖。例如,當互聯網產品經理調研某產品的用戶忠誠度,Kimi 探索版會思考當用戶搜索「忠誠度」時,本質上是想做數據的分析,然後找到可以體現忠誠度的維度,將這個比較模糊和抽象的概念,轉化爲更加具體的「活躍度、留存率、使用頻率、使用時長」等關鍵詞,然後通過機器更擅長的海量並行搜索,查找更全面和準確的答案。

信源分析:Kimi 探索版會從大量的搜索來源結果中,分析篩選出更具權威性和可靠性的信源,並且在答案中提供溯源鏈接,可一鍵定位信源具體出處,精確到段落級別,讓條信息都有據可查。例如,在諮詢顧問調查人羣市場規模的場景,藉助 Kimi 探索版查找中國不同年齡的人口占比情況時,Kimi 會篩選最權威和最新的人口普查報告信息。

鏈式思考:Kimi 探索版可以更好地基於思維鏈推理能力處理產品、公司、行業等研究問題。例如,當程序員做技術選型,想要了解「react 中有哪些狀態管理庫,最好用的是什麼」。Kimi 首先會拆解問題,找到 react 的狀態管理庫有哪些,然後分別搜索每個狀態管理庫的優缺點、使用場景和推薦理由,最後分析總結找到的所有高質量信息,推薦一個最適合大多數情況的狀態管理庫和理由。

面向推理 Scaling Law 時代

在過去幾年中,LLM 使用來自網站、書籍和其他來源的公開文本和其他數據進行預訓練,但模型開發者基本上已經從這類數據中榨乾了儘可能多的資源。

有研究預計,如果 LLM 保持現在的發展勢頭,預計在 2028 年左右,已有的數據儲量將被全部利用完。屆時,基於大數據的大模型的發展將可能放緩甚至陷入停滯。

來源:論文《Will we run out of data? Limits of LLM scaling based on human-generated data》

好在以 o1 爲代表的「推理 Scaling Law」成果,給大模型規模擴展 vs 性能的曲線帶來了一次上翹。領域內認爲,這讓大模型領域重現了類似當年 AlphaGo 強化學習的成功 —— 給越多算力,就輸出越多智能,一直到超越人類水平。

在這條賽道,不論海外的 OpenAI、谷歌,還是國內的月之暗面,都重新站在了全新的起跑線上。

當然,這種範式轉變,首先加劇了科技公司之間的人才爭奪。去年 7 月,德撲 AI 作者 Noam Brown 就加入 OpenAI,並在 o1 項目中發揮了至關重要的作用。近日,Anthropic 又從谷歌挖走了 AlphaGo 核心作者、強化學習大牛 Julian Schrittwieser。

對此,月之暗面是否有所準備?

「我們是很早看到這一點的。只不過在早期,預訓練的很多紅利還沒有被充分發揮出來,所以可能更關注怎麼通過預測下一個 Token 去壓縮更多的智能,但關於強化學習,不管是在人才還是在技術的儲備上,我們都有很早地去鋪墊。」楊植麟表示。