學會反思的國產大模型,真變強了?

真正能夠像人類一樣進行邏輯推理的大模型,距離我們還有多遠?

隨着OpenAI推出更側重推理能力的o1大模型,推理大模型正成爲行業新的競爭方向。本週一,月之暗面推出的Kimi探索版,成爲國產推理大模型的最新代表。

讓大模型學會推理的訣竅是什麼?各家廠商都提到了一個關鍵詞——反思。通過將複雜問題一步步拆分,並且對每一步的輸出結果進行反思檢驗,是降低大模型幻覺的有效途徑。而這樣的思路,看上去與人類的邏輯推理確實有一定相似性。

不過經過實測,我們發現現有大模型的邏輯推理能力仍然難以讓人滿意,這背後可能仍然繞不開大模型底層原理的限制。

但有趣的是,爲了提高推理能力,國產大模型在使用工具的路上越走越遠,反而可能是當下最現實的大模型落地途徑之一。

推理大模型,真的會做題嗎?

上週五,月之暗面宣佈推出Kimi探索版,並於本週一正式上線。

據官方介紹,Kimi探索版具備AI自主搜索能力,可以模擬人類的推理思考過程,多級分解複雜問題,執行深度搜索,並即時反思改進結果,提供更全面和準確的答案,幫助你更高效地完成分析調研等複雜任務。

那麼實測來看,Kimi探索版實力究竟如何?

談到推理能力,人們往往最先想到的是數學。很多測評都使用高等數學題目去測試大模型的推理能力,並且往往能夠取得不錯的效果。

不過從實用層面來看,大部分用戶的需求並不是求解高數,而是解決日常生活中的應用題。

所以,我們打算讓Kimi替最近上市的新車樂道L60算筆賬。

蔚來換電體系下獨特的BaaS電池租賃方案,讓不少消費者在計算用車成本的時候也感到頭疼,樂道L60發佈會後,到底怎麼買更划算引起了網友熱烈討論,不少網友甚至搬出了專業的會計知識。

我們問Kimi的問題是這樣的:分析樂道L60車輛採用BaaS方案下的每年用車成本,BaaS方案和電池買斷方案哪個更划算。

可以看到,Kimi正確理解了BaaS的含義,雖然沒有意識到樂道是換電而不是充電,不過按充電成本算也沒有太大出入,整個邏輯基本是清晰的。

問題在於,雖然一開始提到了購車價格,但是在總用車成本的計算上,Kimi卻並沒有加上購車成本的折舊,沒達到我們想要的效果。

於是,我們要求Kimi把折舊成本考慮進去,結果是這樣的:

在最後的結論裡,Kimi對購車價格和折舊成本進行了重複計算,顯然是錯誤的。而這個錯誤,恰恰說明Kimi對於成本和折舊的邏輯理解還存在不足。

作爲對比,我們用ChatGPT-4o mini測試了相同的問題,發現4o mini可以正確理解包括折舊、BaaS在內的各項成本的邏輯,可是卻沒有正確獲得車輛的價格。

也就是說,Kimi並沒有表現出比GPT-4更好的邏輯能力,但是在中文信息檢索能力上卻更加優秀。事實上,後者也是Kimi真正的強項所在,後面我們會再次討論這一點。

不過在此之前,我們還發現了一個相對小衆的選手——學而思九章大模型,也相當值得關注。

提到學而思,大家都知道它是以教培起家,尤其擅長數學教學。而九章大模型也繼承了學而思的特長,專攻教育領域,並且宣稱有更好的數學能力。

當我們以上述問題測試九章大模型時,它的表現非常出色——不僅能正確理解車輛殘值、成本均攤等邏輯概念,還具體獲得了樂道BaaS“滿四減一”優惠、實際電耗水平等信息,因此給出的答案更能解決問題。

但美中不足的是,它並沒有給出車輛折舊的具體數字,導致最終沒有輸出一個明確的答案。

這究竟是一個缺點,還是優點?其實從邏輯來看,九章這麼做的原因,應該是同樣出於“具體問題具體分析”的理念,由於自己沒辦法確定相關車輛的具體折舊率,因此就直接說明自己的不確定,充分保證了答案的嚴謹性。

看上去,九章的確更像是一個嚴謹、可靠的數學模型。

AI可能還沒有學會推理

強化大語言模型的推理能力,在技術上是怎麼實現的?大家都提到了一個關鍵詞——反思。

月之暗面方面指出:就像人一樣,Kimi探索版可以藉助反思能力,來提升和改進回答的質量。面對開放探索型問題,Kimi探索版發現第一次回答的信息存在缺失,會主動補充回答更多。面對數字相關的搜索問題,Kimi瞭解更多信息後如果發現了數據衝突,則會及時補充提供多方視角的信息供參考決策。

從上面的演示中可以看到,Kimi會把自己的思考過程展示出來,讓用戶明確看到自己進行了一次補充檢索。

九章大模型負責人白錦峰進一步解釋說,同大模型類似,人類在幼年時期同樣缺乏邏輯能力,會產生幻覺。但隨着人類的成長,會逐漸學會邏輯推理,讓自己的觀點在邏輯上自洽,並拿觀點去跟已經存在的事實進行校驗,從而消除幻覺。

白錦峰表示,目前大語言模型的第一性原理是Next Token Prediction,也就是通過預測下一個字符的方式給出答案,而這種預測是基於概率的,這決定了大模型一定會有出錯的概率。

爲了提升準確率,目前的推理大模型普遍應用了CoT(思維鏈)和Voting&Verifier兩種算法,前者將複雜問題拆分爲多個步驟,後者則對於每一步的結果進行反思,多做幾次檢驗來找到一致性最高的答案。

這兩種算法模仿了人類思維方式中的校驗過程,但其實仍然是基於概率,而不是邏輯推理。白錦峰指出,爲了真正保證結果的正確性,大模型還需要應用定律的技術,例如學會使用數學定律來解決問題。

但是在應用定律方面,大模型仍然存在根本性的難點。白錦峰舉例說,像加法交換律(a+b=b+a)這樣簡單的定律,人類可以直接理解公式,但是大模型只能通過窮舉大量的案例(1+2=2+1等)來悟到這個規律。

因此,對於當前的大模型技術能否真正實現推理能力,很多人並不樂觀。美國著名AI科學家Yann LeCun近日就尖銳地表示,當下的模型“似乎在進行推理,但實際上它們只是在重複已經訓練過的信息”,按照現有訓練方式,無論多少GPU都不會讓我們實現AGI。

蘋果AI團隊的最新研究也認爲:大語言模型在相同問題的不同版本上表現出高性能差異、難度略微增加時性能大幅下降以及對無關信息的敏感性,表明其推理能力很脆弱。它可能更像是複雜的模式匹配,而不是真正的邏輯推理。

從大模型到Agent

儘管以AGI的標準來衡量,目前的推理大模型還遠遠不夠完善,但是從實用層面,國產大模型正在這輪推理競賽展現出了一個重要進化——調用工具。

例如,九章大模型在解決數學問題的時候,採用了一個看似原始卻非常實用的辦法——直接調用計算器。就像人類一樣,學會使用工具,也是AI應當具備的能力。

Kimi調用的工具則是搜索引擎。Kimi探索版在回答問題時,最高能夠搜索並精讀500個網頁,相較於此前版本提升了10倍。

而且我們在實測中發現,Kimi列出的參考頁面普遍都來自較爲權威的站點,內容質量也相對較高。在開放性的問題中,Kimi能夠充分保證輸出的客觀和準確性,這纔是探索版給我們印象最深刻的地方。

Kimi 探索版產品負責人表示,“如果 Kimi 搜不到的信息,那大概率用戶也很難自己通過傳統搜索引擎找到。未來搜索引擎會成爲AI更擅長調用的工具,人只需要專注於提出好的問題,AI就可以結合模型本身的能力在龐大的互聯網中自主海量搜索,不斷反思迭代,更精準地找到所需答案。”

對於大部分普通用戶來說,這話並不誇張。

從本質上講,調用工具使得這些模型更接近於AI Agent的概念。尤其是對於Kimi探索版,相當於替用戶完成了網頁檢索的任務,並且能夠幫助用戶去除搜索引擎中大量的低質量和營銷內容,實用性極強。

如果說,當前的AI理論本身就限制了大模型難以實現真正的邏輯能力,那麼在理論突破之前,如何最大化模型的實用性,讓AI從Copilot向Agent儘可能地邁進,就是當下最重要的命題。

此外,從Kimi、九章的表現來看,國產大模型如今繼續提升實用性的方式,並不一定是增加規模,或者提出什麼獨特的算法,而是通過專注於自己最擅長的垂直領域來提升準確率,並形成獨特護城河。

白錦峰舉例說,對於教育大模型來說,能答對問題和能教好學生之間,仍然存在區別。例如同樣是除法,用除號還是用分號來表示,在教學中就是不一樣的。對於小學生來說,因爲還沒有學過分數,所以用分號就是錯誤的回答。因此,學而思利用自己長期積累的教材和教師資源,能夠做出更好的教育大模型。

專注垂直,也能夠讓成本更加可控。學而思方面人士向觀察者網直言,大模型初期投入是不可避免的,目前也看不到直接的回報,但投入又是必須要做的,否則等到技術成熟再發力,早就失去了上牌桌的機會。

但是學而思並沒有選擇去自己研發基座大模型,而是基於開源大模型的基礎,在百度雲上進行千卡規模的訓練,以可控的成本實現了不錯的性能。

因此,國產推理大模型當下給我們的最大啓示,或許仍然是實用爲王。