☰

學會反思的國產大模型，真變強了？

真正能夠像人類一樣進行邏輯推理的大模型，距離我們還有多遠？

隨着OpenAI推出更側重推理能力的o1大模型，推理大模型正成爲行業新的競爭方向。本週一，月之暗面推出的Kimi探索版，成爲國產推理大模型的最新代表。

讓大模型學會推理的訣竅是什麼？各家廠商都提到了一個關鍵詞——反思。通過將複雜問題一步步拆分，並且對每一步的輸出結果進行反思檢驗，是降低大模型幻覺的有效途徑。而這樣的思路，看上去與人類的邏輯推理確實有一定相似性。

不過經過實測，我們發現現有大模型的邏輯推理能力仍然難以讓人滿意，這背後可能仍然繞不開大模型底層原理的限制。

但有趣的是，爲了提高推理能力，國產大模型在使用工具的路上越走越遠，反而可能是當下最現實的大模型落地途徑之一。

推理大模型，真的會做題嗎？

上週五，月之暗面宣佈推出Kimi探索版，並於本週一正式上線。

據官方介紹，Kimi探索版具備AI自主搜索能力，可以模擬人類的推理思考過程，多級分解複雜問題，執行深度搜索，並即時反思改進結果，提供更全面和準確的答案，幫助你更高效地完成分析調研等複雜任務。

那麼實測來看，Kimi探索版實力究竟如何？

談到推理能力，人們往往最先想到的是數學。很多測評都使用高等數學題目去測試大模型的推理能力，並且往往能夠取得不錯的效果。

不過從實用層面來看，大部分用戶的需求並不是求解高數，而是解決日常生活中的應用題。

所以，我們打算讓Kimi替最近上市的新車樂道L60算筆賬。

蔚來換電體系下獨特的BaaS電池租賃方案，讓不少消費者在計算用車成本的時候也感到頭疼，樂道L60發佈會後，到底怎麼買更划算引起了網友熱烈討論，不少網友甚至搬出了專業的會計知識。

我們問Kimi的問題是這樣的：分析樂道L60車輛採用BaaS方案下的每年用車成本，BaaS方案和電池買斷方案哪個更划算。

可以看到，Kimi正確理解了BaaS的含義，雖然沒有意識到樂道是換電而不是充電，不過按充電成本算也沒有太大出入，整個邏輯基本是清晰的。

問題在於，雖然一開始提到了購車價格，但是在總用車成本的計算上，Kimi卻並沒有加上購車成本的折舊，沒達到我們想要的效果。

於是，我們要求Kimi把折舊成本考慮進去，結果是這樣的：

在最後的結論裡，Kimi對購車價格和折舊成本進行了重複計算，顯然是錯誤的。而這個錯誤，恰恰說明Kimi對於成本和折舊的邏輯理解還存在不足。

作爲對比，我們用ChatGPT-4o mini測試了相同的問題，發現4o mini可以正確理解包括折舊、BaaS在內的各項成本的邏輯，可是卻沒有正確獲得車輛的價格。

也就是說，Kimi並沒有表現出比GPT-4更好的邏輯能力，但是在中文信息檢索能力上卻更加優秀。事實上，後者也是Kimi真正的強項所在，後面我們會再次討論這一點。

不過在此之前，我們還發現了一個相對小衆的選手——學而思九章大模型，也相當值得關注。

提到學而思，大家都知道它是以教培起家，尤其擅長數學教學。而九章大模型也繼承了學而思的特長，專攻教育領域，並且宣稱有更好的數學能力。

當我們以上述問題測試九章大模型時，它的表現非常出色——不僅能正確理解車輛殘值、成本均攤等邏輯概念，還具體獲得了樂道BaaS“滿四減一”優惠、實際電耗水平等信息，因此給出的答案更能解決問題。

但美中不足的是，它並沒有給出車輛折舊的具體數字，導致最終沒有輸出一個明確的答案。

這究竟是一個缺點，還是優點？其實從邏輯來看，九章這麼做的原因，應該是同樣出於“具體問題具體分析”的理念，由於自己沒辦法確定相關車輛的具體折舊率，因此就直接說明自己的不確定，充分保證了答案的嚴謹性。

看上去，九章的確更像是一個嚴謹、可靠的數學模型。

AI可能還沒有學會推理

強化大語言模型的推理能力，在技術上是怎麼實現的？大家都提到了一個關鍵詞——反思。

月之暗面方面指出：就像人一樣，Kimi探索版可以藉助反思能力，來提升和改進回答的質量。面對開放探索型問題，Kimi探索版發現第一次回答的信息存在缺失，會主動補充回答更多。面對數字相關的搜索問題，Kimi瞭解更多信息後如果發現了數據衝突，則會及時補充提供多方視角的信息供參考決策。

從上面的演示中可以看到，Kimi會把自己的思考過程展示出來，讓用戶明確看到自己進行了一次補充檢索。

九章大模型負責人白錦峰進一步解釋說，同大模型類似，人類在幼年時期同樣缺乏邏輯能力，會產生幻覺。但隨着人類的成長，會逐漸學會邏輯推理，讓自己的觀點在邏輯上自洽，並拿觀點去跟已經存在的事實進行校驗，從而消除幻覺。

白錦峰表示，目前大語言模型的第一性原理是Next Token Prediction，也就是通過預測下一個字符的方式給出答案，而這種預測是基於概率的，這決定了大模型一定會有出錯的概率。

爲了提升準確率，目前的推理大模型普遍應用了CoT（思維鏈）和Voting&Verifier兩種算法，前者將複雜問題拆分爲多個步驟，後者則對於每一步的結果進行反思，多做幾次檢驗來找到一致性最高的答案。

這兩種算法模仿了人類思維方式中的校驗過程，但其實仍然是基於概率，而不是邏輯推理。白錦峰指出，爲了真正保證結果的正確性，大模型還需要應用定律的技術，例如學會使用數學定律來解決問題。

但是在應用定律方面，大模型仍然存在根本性的難點。白錦峰舉例說，像加法交換律（a+b=b+a）這樣簡單的定律，人類可以直接理解公式，但是大模型只能通過窮舉大量的案例（1+2=2+1等）來悟到這個規律。

因此，對於當前的大模型技術能否真正實現推理能力，很多人並不樂觀。美國著名AI科學家Yann LeCun近日就尖銳地表示，當下的模型“似乎在進行推理，但實際上它們只是在重複已經訓練過的信息”，按照現有訓練方式，無論多少GPU都不會讓我們實現AGI。

蘋果AI團隊的最新研究也認爲：大語言模型在相同問題的不同版本上表現出高性能差異、難度略微增加時性能大幅下降以及對無關信息的敏感性，表明其推理能力很脆弱。它可能更像是複雜的模式匹配，而不是真正的邏輯推理。

從大模型到Agent

儘管以AGI的標準來衡量，目前的推理大模型還遠遠不夠完善，但是從實用層面，國產大模型正在這輪推理競賽展現出了一個重要進化——調用工具。

例如，九章大模型在解決數學問題的時候，採用了一個看似原始卻非常實用的辦法——直接調用計算器。就像人類一樣，學會使用工具，也是AI應當具備的能力。

Kimi調用的工具則是搜索引擎。Kimi探索版在回答問題時，最高能夠搜索並精讀500個網頁，相較於此前版本提升了10倍。

而且我們在實測中發現，Kimi列出的參考頁面普遍都來自較爲權威的站點，內容質量也相對較高。在開放性的問題中，Kimi能夠充分保證輸出的客觀和準確性，這纔是探索版給我們印象最深刻的地方。

Kimi 探索版產品負責人表示，“如果 Kimi 搜不到的信息，那大概率用戶也很難自己通過傳統搜索引擎找到。未來搜索引擎會成爲AI更擅長調用的工具，人只需要專注於提出好的問題，AI就可以結合模型本身的能力在龐大的互聯網中自主海量搜索，不斷反思迭代，更精準地找到所需答案。”

對於大部分普通用戶來說，這話並不誇張。

從本質上講，調用工具使得這些模型更接近於AI Agent的概念。尤其是對於Kimi探索版，相當於替用戶完成了網頁檢索的任務，並且能夠幫助用戶去除搜索引擎中大量的低質量和營銷內容，實用性極強。

如果說，當前的AI理論本身就限制了大模型難以實現真正的邏輯能力，那麼在理論突破之前，如何最大化模型的實用性，讓AI從Copilot向Agent儘可能地邁進，就是當下最重要的命題。

此外，從Kimi、九章的表現來看，國產大模型如今繼續提升實用性的方式，並不一定是增加規模，或者提出什麼獨特的算法，而是通過專注於自己最擅長的垂直領域來提升準確率，並形成獨特護城河。

白錦峰舉例說，對於教育大模型來說，能答對問題和能教好學生之間，仍然存在區別。例如同樣是除法，用除號還是用分號來表示，在教學中就是不一樣的。對於小學生來說，因爲還沒有學過分數，所以用分號就是錯誤的回答。因此，學而思利用自己長期積累的教材和教師資源，能夠做出更好的教育大模型。

專注垂直，也能夠讓成本更加可控。學而思方面人士向觀察者網直言，大模型初期投入是不可避免的，目前也看不到直接的回報，但投入又是必須要做的，否則等到技術成熟再發力，早就失去了上牌桌的機會。

但是學而思並沒有選擇去自己研發基座大模型，而是基於開源大模型的基礎，在百度雲上進行千卡規模的訓練，以可控的成本實現了不錯的性能。

因此，國產推理大模型當下給我們的最大啓示，或許仍然是實用爲王。

學會反思的國產大模型，真變強了？

相關資訊