李開復:大模型價格戰是“雙輸”的打法

時隔一週,零一萬物再次更新其千億參數閉源大模型Yi-Large的動態,這次是榜單成績。

5月21日,零一萬物表示,在LMSYS盲測競技場最新排名中,Yi-Large總榜排名世界模型第7。在總榜上,GPT系列佔了前十中的四位,以機構排序,零一萬物位於OpenAI,Google和Anthropic之後。

此外,其中文分榜排名與GPT4o並列第一(嚴格來說分數更低一些),編程能力(Coding)和長提問(Long query)位列第二。

LMSYS Org是一個針對大型語言模型(LLMs)的研究組織,其發佈的大語言模型評估排行榜也被稱爲大模型匿名競技場。榜單會讓大量用戶輸入問題,並由不同模型生成回答,用戶在不知道模型與答案對應關係的情況下根據答案質量進行投票,從而對模型進行評估。

此次刷新的“Chatbot Arena”是LMSYS排行榜的主要基準之一,使用Elo評級方法(一項基於統計學原理的評價體系)進行計算結果,這一場全球用戶投票數超過1170萬。

這次成績之所以被零一萬物重視,一方面是因爲它是國內大模型領域唯一進入前十的公司(智譜GLM4、阿里Qwen Max、Qwen 1.5也參與了這次盲測),但客觀來看,它不能完全驗證自己是國內第一的說法,因爲國內參賽選手僅有三家。

另一方面在於排在Yi-Large前面的大模型都是萬億參數級別,而Yi-Large以千億參數量級達成了相近的表現。“如果我們有10倍GPU,我們的萬億模型完全可以達到第一名。”零一萬物創始人兼CEO李開復表示。

事實上,大模型曾因刷榜亂象廣受爭議,大量榜單由於題目缺乏動態性、可針對性刷題等問題,已經喪失了一部分公信力。對此,零一萬物模型負責人黃文灝表示,團隊之所以強調LMSYS的排名價值,是因爲看重其題目動態隨機、基於用戶打分等機制帶來的客觀性。

而關於用戶輸出的“prompt”(提示詞)在專業水平上是否不如專業評測集,黃文灝的理解是,一方面,盲測競技場的方式更貼近用戶真實使用場景,這是其主要價值所在;另一方面,LMSYS也有“hard prompt”部分,這一板塊對於模型智力其實提出了很高挑戰。

除去榜單本身傳遞出來的技術信息,這背後還呈現出中美大模型領域差距等更宏大長遠的議題。

李開復表示,團隊尊重美國在科技領域的創造性,但後發有後發的優勢。“中國人的聰明、勤奮、努力是不容忽視的。”他指出,零一萬物用一年時間把過去幾年的技術差距縮短到目前的6個月(在榜單上超過了6個月前更新的海外大模型),“6個月的差別我覺得不是很大,這是以一個不可思議的超級速度在追趕。”

在追趕問題上,李開復多次提到了算力侷限問題,但算力對模型發展的限制客觀存在,當世界第一梯隊已經處於領先位置,並且擁有更深厚的資源,國內大模型公司可以採取什麼戰術?

在李開復看來,這件事本質上可以分爲兩個方向,一是“把一張GPU擠出更多的價值”(主要指提高MFU,模型FLOPs利用率),二是優化模型表現,這涉及數據配比、如何引入多模態等技術細節,“我覺得我們在這方面是不輸於美國。”他說。

對於行業趨勢,零一萬物繞不開的就是當前已經開展的B端(企業端)服務“價格戰”。

此前,李開復明確表示,不應在行業內按照ofo的燒錢打法重蹈覆轍。但接連幾日以來,字節跳動旗下豆包大模型宣佈降價,其通用模型pro-32k的推理輸入價格僅爲0.0008元/千Tokens,比行業便宜近一半;隨即,阿里雲通義千問主力模型Qwen-Long的API輸入價格直降97%降至0.0005元/千Tokens;百度文心大模型也宣佈兩款主力模型ENIRE Speed和ENIRE Lite免費。

李開復表示已經關注到這一現象,但他認爲零一萬物目前定價合理,且團隊也在花很大精力進行降價。“行業每年降低10倍推理成本是可以期待的,而且也應該是必然發生的。”他說。

但他堅持認爲價格戰是一個“雙輸”的打法,大模型公司不會這樣不理智。當他認定自己的技術值得的時候,就會堅持一個合適的價格,而絕不會靠貼錢、賠錢去做生意。

“如果你再問,以後可能中國就是這麼卷,大家寧可賠光通輸也不讓你贏,那我們就走外國市場。”李開復表示。