☰

Kimi創始人楊植麟：Scaling laws依然有效強化學習是重點

《科創板日報》11月17日訊（記者黃心怡）在月之暗面Kimi Chat上線一週年之際，Kimi發佈了新一代數學推理模型k0-math模型，以及包含了k0-math強化模型的Kimi探索版，未來幾周將會分批陸續上線Kimi網頁版和Kimi智能助手APP。

“如果說長文本是月之暗面登月的第一步，那麼提升模型深度推理能力則是第二步。”月之暗面創始人楊植麟在接受包括《科創板日報》在內的媒體採訪時表示。

除數學推理模型外，楊植麟透露，幾個多模態能力也在內測中。

作爲炙手可熱的AI獨角獸公司，近日楊植麟陷入一場仲裁糾紛，並面臨人才流失的質疑。

對此楊植麟迴應稱，並沒有人才流失，而是主動選擇做了業務的減法。

“先聚焦，然後全球化，需要更耐心一點。我們不希望把團隊擴那麼大，這對創新的影響是有致命性的傷害。如果想把團隊保持在一定的規模，那麼最好的方式是業務上做一些減法。”

據悉，kimi每月的活躍用戶規模已經達到3600萬。談及用戶投流策略，楊植麟表示最關鍵的提升用戶留存，這是目前最核心的任務，對此沒有上限的限制。

“百模大戰”已經經歷了一年多時間，業界的焦點從卷模型轉向了卷應用。此前有消息稱，一些大模型企業放棄了預訓練模型,業務重心轉向AI應用。

對於預訓練大模型未來發展，楊植麟認爲，預訓練大模型還有迭代空間。“預計還有半代到一代的模型的空間會在明年釋放出來，我覺得在明年，業內領先的模型會把預訓練做到一個比較極致的階段。”

▌Scaling laws依然有效但需要更好的方法

大模型的Scaling laws，即規模法則，是當前AI圈不少人所信奉的定律。所謂Scaling laws是相信“大力出奇跡”，隨着模型規模、訓練數據和計算資源的增加,模型性能會得到顯著提升,

楊植麟認爲，“Scaling”對AI而言是不變的關鍵詞。“支撐AI技術在過去幾年發生的進展，基本上可以歸功於一個詞是Scaling。”

不過，楊植麟表示，Scaling並不意味把模型做得更大就好，而是要找到有效的方法來Scale，比如更好的數據和方法。

“我們接下來會越來越關注基於強化學習的方法來Scale。我們認爲，接下來AI發展的方向，還是持續地Scale，只是Scale的過程不一樣，是更多的強化學習，在強化學習的過程中生成更多的數據來做。”

楊植麟把AI的發展比作盪鞦韆，會在兩種狀態之間來回切換。“一種狀態是算法數據已經完備了，但是算力不夠，這就要求做更多的工程，把基礎設施做得更好，就能夠持續的提升。從transformer誕生到GPT4，更多的矛盾就是怎麼能夠Scale，但在算法和數據上可能沒有本質的問題。”

但是隨着算力擴展到一定的規模，這時算力的增加很難再直接提升模型的質量。

“這時的狀態是，你會發現再加更多的算力，並不一定能看到直接的提升。因爲核心是沒有高質量的數據，小几十G的token是人類互聯網積累了20多年的上限。於是，要通過算法的改變，來釋放Scaling的潛力，所有的好算法是跟Scaling做朋友，它就會持續變得更好。”

▌大模型需要提升思考能力

大模型的出現、AIGC的應用改變了人機交互方式，在不少業內展望中，在以大模型爲代表的AIGC技術加持下，人機交互體驗將徹底被重構。而楊植麟認爲，在強調交互能力的同時，更應該注重大模型的思考能力。

“AI最重要的是思考和交互這兩個能力。思考的重要性遠大於交互，不是說交互不重要，交互是一個必要條件，但思考會決定上限。因此，接下來很重要的一件事是讓AI具備思考的能力。”

最適合讓AI鍛鍊思考的能力，無疑是數學場景。

“伽利略曾說過，宇宙是由數學這門語言書寫而成的。它是整個宇宙的基石，很多規律只是通過數學來刻劃的。而且好處是並不需要跟外界進行交互，相對來說比較嚴密的自成一體，它自己可以成爲一個體系，這讓數學成爲AI學習這種思考能力的一種非常好的場景。”楊植麟稱。

相比文字應用能力，大模型的數學能力一直存在較大的差距。

今年6月，上海人工智能實驗室通過旗下司南評測體系OpenCompass對7個大模型進行高考“語數外”全卷能力測試。測試結果顯示，三科總分420分，大模型最高分僅303分，其中語文、英語表現相對良好，數學全不及格。

楊植麟表示，目前的模型還是有一些侷限性。“比如拿高考數學全國範圍內最難的題去考大模型，現在有一定的概率會做錯。但本身模型的能力提升是很快的，比如去年對高考題大概能做百分之二三十的準確率，但如今我們能做到90%的準確率。”

在現場的演示中，Kimi對2024AIME數學競賽、高等數學題目進行了解答，通過用強化學習的方式來逼近更強的鏈路思考，來確保每一步的正確性，並且在得出答案，會像人類一樣進行二次驗算。

“當然，還有非常大的提升空間，但如果持續的做強化學習的Scaling，應該是可以能夠在更多的場景完成長鏈路的思考、複雜的推理。還有很重要的一點，就是更多的泛化，把這種推理泛化到更多的任務裡。”楊植麟稱。

據悉，月之暗面計劃在教育領域進行探索，並與Kimi搜索場景結合。“無論是K12、大學甚至競賽，這裡會有很多的場景可使用。我們還是希望把它更多的泛化，比如把強化學習的技術用在搜索場景裡，跟Kimi探索版相結合，提升模型在搜索過程中的推理能力，做更復雜的搜索。”

▌聚焦核心業務不要把自己變成大廠

近日來，關於月之暗面縮減出海項目、聚焦Kimi的消息在市場上流傳。楊植麟透露，大概今年三、四月份，做出了聚焦Kimi，對業務做減法的決定。

“這一是基於美國市場的判斷，二是基於自身的觀察。我們主動選擇做了業務的減法，應該聚焦在上限最高的事情，然後做好。”

楊植麟認爲，創業團隊的人數不能太多，而是要真正聚焦於把核心的創新能力做好。如果把自己變成大廠，就沒有任何優勢了。

“在國內大模型創業公司裡，我們始終保持人數最少，始終保持卡和人的比例是最高的，這是非常關鍵的。我們不希望把團隊擴那麼大，因爲人數擴張對創新的影響有致命性的傷害。如果你想把團隊保持在一定的規模，那麼最好的方式是業務上做一些減法。”

楊植麟透露，“一開始也嘗試過比如說幾個產品一塊做，這在一定的時期內可能是有效的，到後來發現還是要聚焦，把一個產品做到極致是最重要的。比如三個業務一起做，就活生生把自己變成大廠，那會沒有任何的優勢。”

對於在大模型研發上，楊植麟表示，預訓練大模型還有半代到一代的空間，預計明年預訓練大模型就會達到比較極致的階段，但重點會在強化學習上。此外，幾個多模態的能力也在內測中。

談及用戶投流和商業化變現的平衡，楊植麟稱，目前最核心的任務就是提升留存。“留存是一個重要的衡量指標，這對我們來說是最重要的。留存到多少會滿意？我的回答是永無止境。”

Kimi創始人楊植麟：Scaling laws依然有效 強化學習是重點