Kimi向Open AI發起衝擊

作者 | 劉寶丹

編輯 | 周智宇

5天前,炙手可熱的AI獨角獸公司創始人楊植麟陷入一場仲裁糾紛,他堅定選擇了依法抗辯。AI大模型正處於技術追趕的關鍵階段,他要把重心放在技術和產品上。

一年前的今天,Kimi正式面向全社會開放服務。一年後,Kimi迎來重磅技術迭代。

11月16日,楊植麟在媒體溝通會上表示,Scaling範式已經發生變化,公司接下來的重點是基於強化學習去“Scale”。Scaling是支撐AI技術在過去幾年發展的根本原因,但並不是把模型做得更大就好,核心是找到Scaling的有效方法。

楊植麟表示,簡單去預測下一個token,其實有一定的侷限性,我們希望AI能夠去探索,接下來很重要的一個東西就是讓AI具備思考的能力。

會上,月之暗面發佈了最新的數學模型k0—math,該模型主要通過數學場景去培養和訓練AI深度思考的能力。這是Kimi 推出的首款推理能力強化模型。

Kimi將苗頭對準OpenAI的最新技術。在多項基準能力測試中,k0-math 的數學能力可對標OpenAI的o1系列。比如,在中考、高考、考研以及包含入門競賽題的MATH等 4 個數學基準測試中,k0-math 初代模型成績超過o1-mini和o1-preview模型。

不過,追趕OpenAI並沒有那麼容易。在兩個難度更大的競賽級別的數學題庫 OMNI-MATH 和 AIME 基準測試中,k0-math 初代模型的表現分別達到了o1-mini最高成績的90%和83%。

目前,月之暗面已經開始在k0-math上做產品化,公司將強化學習用到Kimi探索版,讓它做更復雜的搜索。據楊植麟介紹,Kimi探索版在搜索意圖、信源分析、鏈式思考方面表現顯著。

同時,數學本身有更廣泛的應用場景,月之暗面計劃把k0—math應用到教育場景,包括K12、大學甚至是競賽。

過去一年多,月之暗面經歷了飛速發展,無論是產品技術還是估值,都成爲最受矚目的AI獨角獸公司。

2023年3月,月之暗面成立;11月,Kimi 智能助手宣佈全面開放,今年初,該產品因“長文本”出圈,誕生Kimi概念股,受到廣泛關注。截至目前,月之暗面已完成四次融資,阿里、騰訊紛紛入股,公司估值超過200億元。

楊植麟在會上透露,Kimi在10月月活超過3600萬,而且還在持續更快的增長。業內人士分析,Kimi是僅次於豆包的AI應用,目前處於第一梯隊,不過,相對國外幾億量級的用戶而言,Kimi還有很長一段路需要追趕。

公司已將Scaling範式切換到強化學習,華爾街見聞獲悉,公司的多模態產品已經處於內測當中,預計很快會對外公佈,這些動作無疑將帶來更多用戶。

在這場全球AI競賽中,楊植麟要帶領月之暗面在一個裹挾着巨大希望和時刻被質疑的行業裡,闖出一條通往AGI的路,這場戰役纔剛剛開始。

以下爲交流會實錄(經編輯):

問:數據會不會成爲比較大的挑戰,怎麼判斷哪些數據可以用,哪些有價值?

楊植麟:這個問題對於強化學習來講是一個核心問題,如果是像以前做Next—Token prediction,它是一個靜態數據,相對來說,這些技術會更成熟一些。但是對強化學習來講,所有的學習數據可能都是自己生成的,就會對獎勵模型效果提出挑戰。

對於這個問題,核心是怎麼更好地訓練獎勵模型,設置獎勵的機制,如果做得足夠好話,一定程度上是可以被解決的。有點像以前的(pretraining)你還要做很多的對齊工作,我覺得其實對強化學習來說也是一樣的。

問:對於強化學習,怎麼平衡數據、算力、算法?

楊植麟:我覺得AI的發展就是一個盪鞦韆的過程,你會在兩種狀態之間來回切換,一種狀態就是算法數據是非常ready,但是你的算力不夠。所以你要做更多的工程,把infra做得更好,它就能夠持續地提升。我覺得其實從transformer誕生到GPT4,其實更多的矛盾就是我怎麼能夠Scale,但是你可能在算法和數據上可能沒有本質的問題。

今天,當你Scale差不多的時候,你會發現我再加更多的算力,並不一定能直接解決這個問題,核心是,因爲你沒有高質量的數據,小几十G的token是人類互聯網積累了20多年的上限。這個時候要做的事情,就是通過算法的改變,讓這個東西不會成爲瓶頸。所有的好算法就是跟Scaling做朋友,如果你的算法能夠釋放Scaling的潛力,它就會持續變得更好。

我們從很早就開始做強化學習相關的東西,我覺得這個也是接下來很重要的一個趨勢,通過這種方式去改變你的目標函數,改變你的學習的方式,讓它能持續的Scale。

問:這個產品如果一至兩週之後放到Kimi探索版裡,用戶可以選擇用這個東西,還是你們會根據用戶的提問來分配模型?怎麼去平衡成本問題?

楊植麟:這個問題特別好,接下來的版本大概率會讓用戶自己去選擇。早期通過這種方式可以更好地分配或者更好地滿足用戶的預期。

這裡面最終可能還是一個技術問題,兩個點,一個點是能夠動態地給它分配最優的算力。如果模型足夠聰明的話,簡單的問題它的思考時間會更短。但是它可能還不是到最優的點,我覺得它還有更優,這是我們通過算法迭代去做的。

長期來講,第二個點是成本也是不斷下降的過程。比如說,今年如果達到去年GPT4模型的水平,可能只需要十幾B的參數就能做到。所以我覺得整個行業先做大或者做小,是這樣的普遍普世的規律。

問:怎麼看待AI創業公司被收購,人才迴流大的現象?

楊植麟:這個問題我們沒有遇到,但可能有一些別的公司遇到。

我覺得倒也正常,行業發展進入了一個新的階段,它從一開始有很多公司在做。變成了現在少一點的公司在做,接下來大家做的東西會逐漸不一樣,我覺得這是必然的規律。

我們主動選擇做了業務的減法,你應該聚焦一些重要的事情,把一個產品做好,做到極致是最重要的。在幾個大模型創業公司裡,我們始終保持人數最少,保持卡和人的比例是最高的,我覺得這個是非常關鍵的。我們不希望把團隊擴那麼大,太大對創新有致命性傷害。如果想把團隊保持在一定的規模,最好的方式是業務上做一些減法。

另外一點,我們也根據美國市場的情況去判斷,哪個業務最後做大的概率更高,我們聚焦在上限最高的事情,而且跟我們AGI的misson也最相關。

問:多模態我們一直不做的原因是什麼?

楊植麟:我們幾個多模態的能力在內測。

我覺得AI接下來最重要的是思考和交互這兩個能力,思考的重要性遠大於交互,不是說交互不重要,我覺得思考會決定上限,交互我覺得是一個必要條件,比如說vision的能力,如果沒有vision的能力沒法做交互。

我覺得他們兩個不太一樣,多模態肯定是必要的,但是我覺得是思考決定它的上限。

問:怎麼看自己跟豆包的競爭?

楊植麟:我們還是更希望關注怎麼能給用戶帶來真正的價值,不希望過多去關注競爭本身,因爲競爭本身並不產生價值。deliver更好的技術和產品,給用戶創造更大的價值,這是我們現在最核心的問題。

我們會更聚焦在,怎麼提升模型的思考推理能力,通過這個東西給用戶帶來更大的價值。我覺得,只要有人實現AGI,它都是非常好的結果。

問:Kimi用是你們自己的基礎模型,還是開源?

楊植麟:我們自己在做。

提問:出海怎麼想?

楊植麟:我覺得先聚焦,然後全球化,需要更耐心一點。

問:大模型的投流的問題確實受關注,Kimi投了上百萬的廣告,統計的金額四五億,我們在投流這塊是什麼策略?

楊植麟:第一數據不完全準確。第二,對我們來講最核心的是把留存和getting growth做好。適當的投放是需要的,但是需要平衡好這幾個東西之間的關係。

問:留存到多少會滿意?

楊植麟:永無止境。

問:至少RIO需要爲正吧?

楊植麟:看怎麼衡量吧,這個東西肯定需要去算,我們也會持續地提升。我們的好處是,跟技術的進展高度正相關。

問:投流成本很高?Kimi怎麼能把成本收回來,怎麼做良性的商業化?

楊植麟:對我們來說,現在最關鍵的還是留存,我覺得這個還是需要看得再長遠一些。

問:美國預訓練的Scale遇到瓶頸,對於中國公司來說是好事還是壞事?能不能對未來做一些預測?

楊植麟:對我們來說它有可能是一個好事。假設你一直Pre-Training(預訓練),你的預算今年1B、明年10B或者100B,它不一定可持續。

當然做強化學習也要Scaling,只是說Scaling的起點很低,可能在一段時間內你的算力就不會是瓶頸,這個時候創新能力是更重要的,在這種情況下,我覺得對我們反而是一個優勢。