Kimi創始人楊植麟:Scaling laws依然有效 強化學習是重點

《科創板日報》11月17日訊(記者 黃心怡) 在月之暗面Kimi Chat上線一週年之際,Kimi發佈了新一代數學推理模型k0-math模型,以及包含了k0-math強化模型的Kimi探索版,未來幾周將會分批陸續上線Kimi網頁版和Kimi智能助手APP。

“如果說長文本是月之暗面登月的第一步,那麼提升模型深度推理能力則是第二步。”月之暗面創始人楊植麟在接受包括《科創板日報》在內的媒體採訪時表示。

除數學推理模型外,楊植麟透露,幾個多模態能力也在內測中。

作爲炙手可熱的AI獨角獸公司,近日楊植麟陷入一場仲裁糾紛,並面臨人才流失的質疑。

對此楊植麟迴應稱,並沒有人才流失,而是主動選擇做了業務的減法。

“先聚焦,然後全球化,需要更耐心一點。我們不希望把團隊擴那麼大,這對創新的影響是有致命性的傷害。如果想把團隊保持在一定的規模,那麼最好的方式是業務上做一些減法。”

據悉,kimi每月的活躍用戶規模已經達到3600萬。談及用戶投流策略,楊植麟表示最關鍵的提升用戶留存,這是目前最核心的任務,對此沒有上限的限制。

“百模大戰”已經經歷了一年多時間,業界的焦點從卷模型轉向了卷應用。此前有消息稱,一些大模型企業放棄了預訓練模型,業務重心轉向AI應用。

對於預訓練大模型未來發展,楊植麟認爲,預訓練大模型還有迭代空間。“預計還有半代到一代的模型的空間會在明年釋放出來,我覺得在明年,業內領先的模型會把預訓練做到一個比較極致的階段。”

▌Scaling laws依然有效 但需要更好的方法

大模型的Scaling laws,即規模法則,是當前AI圈不少人所信奉的定律。所謂Scaling laws是相信“大力出奇跡”,隨着模型規模、訓練數據和計算資源的增加,模型性能會得到顯著提升,

楊植麟認爲,“Scaling”對AI而言是不變的關鍵詞。“支撐AI技術在過去幾年發生的進展,基本上可以歸功於一個詞是Scaling。”

不過,楊植麟表示,Scaling並不意味把模型做得更大就好,而是要找到有效的方法來Scale,比如更好的數據和方法。

“我們接下來會越來越關注基於強化學習的方法來Scale。我們認爲,接下來AI發展的方向,還是持續地Scale,只是Scale的過程不一樣,是更多的強化學習,在強化學習的過程中生成更多的數據來做。”

楊植麟把AI的發展比作盪鞦韆,會在兩種狀態之間來回切換。“一種狀態是算法數據已經完備了,但是算力不夠,這就要求做更多的工程,把基礎設施做得更好,就能夠持續的提升。從transformer誕生到GPT4,更多的矛盾就是怎麼能夠Scale,但在算法和數據上可能沒有本質的問題。”

但是隨着算力擴展到一定的規模,這時算力的增加很難再直接提升模型的質量。

“這時的狀態是,你會發現再加更多的算力,並不一定能看到直接的提升。因爲核心是沒有高質量的數據,小几十G的token是人類互聯網積累了20多年的上限。於是,要通過算法的改變,來釋放Scaling的潛力,所有的好算法是跟Scaling做朋友,它就會持續變得更好。”

▌大模型需要提升思考能力

大模型的出現、AIGC的應用改變了人機交互方式,在不少業內展望中,在以大模型爲代表的AIGC技術加持下,人機交互體驗將徹底被重構。而楊植麟認爲,在強調交互能力的同時,更應該注重大模型的思考能力。

“AI最重要的是思考和交互這兩個能力。思考的重要性遠大於交互,不是說交互不重要,交互是一個必要條件,但思考會決定上限。因此,接下來很重要的一件事是讓AI具備思考的能力。”

最適合讓AI鍛鍊思考的能力,無疑是數學場景。

“伽利略曾說過,宇宙是由數學這門語言書寫而成的。它是整個宇宙的基石,很多規律只是通過數學來刻劃的。而且好處是並不需要跟外界進行交互,相對來說比較嚴密的自成一體,它自己可以成爲一個體系,這讓數學成爲AI學習這種思考能力的一種非常好的場景。”楊植麟稱。

相比文字應用能力,大模型的數學能力一直存在較大的差距。

今年6月,上海人工智能實驗室通過旗下司南評測體系OpenCompass對7個大模型進行高考“語數外”全卷能力測試。測試結果顯示,三科總分420分,大模型最高分僅303分,其中語文、英語表現相對良好,數學全不及格。

楊植麟表示,目前的模型還是有一些侷限性。“比如拿高考數學全國範圍內最難的題去考大模型,現在有一定的概率會做錯。但本身模型的能力提升是很快的,比如去年對高考題大概能做百分之二三十的準確率,但如今我們能做到90%的準確率。”

在現場的演示中,Kimi對2024AIME數學競賽、高等數學題目進行了解答,通過用強化學習的方式來逼近更強的鏈路思考,來確保每一步的正確性,並且在得出答案,會像人類一樣進行二次驗算。

“當然,還有非常大的提升空間,但如果持續的做強化學習的Scaling,應該是可以能夠在更多的場景完成長鏈路的思考、複雜的推理。還有很重要的一點,就是更多的泛化,把這種推理泛化到更多的任務裡。”楊植麟稱。

據悉,月之暗面計劃在教育領域進行探索,並與Kimi搜索場景結合。“無論是K12、大學甚至競賽,這裡會有很多的場景可使用。我們還是希望把它更多的泛化,比如把強化學習的技術用在搜索場景裡,跟Kimi探索版相結合,提升模型在搜索過程中的推理能力,做更復雜的搜索。”

▌聚焦核心業務 不要把自己變成大廠

近日來,關於月之暗面縮減出海項目、聚焦Kimi的消息在市場上流傳。楊植麟透露,大概今年三、四月份,做出了聚焦Kimi,對業務做減法的決定。

“這一是基於美國市場的判斷,二是基於自身的觀察。我們主動選擇做了業務的減法,應該聚焦在上限最高的事情,然後做好。”

楊植麟認爲,創業團隊的人數不能太多,而是要真正聚焦於把核心的創新能力做好。如果把自己變成大廠,就沒有任何優勢了。

“在國內大模型創業公司裡,我們始終保持人數最少,始終保持卡和人的比例是最高的,這是非常關鍵的。我們不希望把團隊擴那麼大,因爲人數擴張對創新的影響有致命性的傷害。如果你想把團隊保持在一定的規模,那麼最好的方式是業務上做一些減法。”

楊植麟透露,“一開始也嘗試過比如說幾個產品一塊做,這在一定的時期內可能是有效的,到後來發現還是要聚焦,把一個產品做到極致是最重要的。比如三個業務一起做,就活生生把自己變成大廠,那會沒有任何的優勢。”

對於在大模型研發上,楊植麟表示,預訓練大模型還有半代到一代的空間,預計明年預訓練大模型就會達到比較極致的階段,但重點會在強化學習上。此外,幾個多模態的能力也在內測中。

談及用戶投流和商業化變現的平衡,楊植麟稱,目前最核心的任務就是提升留存。“留存是一個重要的衡量指標,這對我們來說是最重要的。留存到多少會滿意?我的回答是永無止境。”