深度 | 挖角DeepSeek“天才AI少女”,雷軍想做什麼?

跨元旦直播前夕,小米(01810)董事長雷軍千萬元年薪挖角DeepSeek“天才AI少女”成爲業內熱點。

一財消息稱,DeepSeek開源大模型DeepSeek-V2的關鍵開發者之一羅福莉將加入小米,或供職於小米AI實驗室,領導小米大模型團隊。

公開信息顯示,還在讀研二時,羅福莉就在人工智能領域頂級國際會議ACL上發表8篇論文(其中2篇一作),後來登上知乎熱搜而迅速走紅。羅福莉畢業後進到阿里達摩院,從事預訓練語言模型,主導開發了多語言預訓練模型VECO。2022年她加入幻方量化,從事深度學習相關策略建模和算法研究,後又加入幻方量化創立的DeepSeek擔任深度學習研究員,參與研發大模型DeepSeek-V2。

據知情人士稱,雷軍認爲小米在大模型領域發力太晚,於是親自挖人,重金招募能夠領軍小米大模型的人才,支付的薪酬水平在千萬元級別。

當下,AI大模型已經成爲科技公司競爭的核心,甚至是焦慮所在。而馬斯克創立的xAI則進一步放大了這種焦慮。

上週,xAI官宣完成60億美元新融資。兼之2024年5月B輪的60億美元,xAI公開的總融資額已經累計120億美元。而這家AI公司2023年7月份才成立。更早一些時間,另一家AI公司Anthropic從亞馬遜(AMZN)獲得了 40 億美元融資,總融資額達到 137 億美元。而 OpenAI 在10月份最新融資66 億美元,總融資額增至 179 億美元。

AI大模型並非新概念,但具有重大影響力和代表性的大模型主要出現在 2018 年之後。2020 年,OpenAI 公司推出了 GPT-3,在零樣本學習任務上實現了巨大性能提升。2022 年 11 月,搭載了 GPT3.5 的 ChatGPT上市,憑藉逼真的自然語言交互與多場景內容生成能力,迅速引爆互聯網。2023 年 3 月,超大規模多模態預訓練大模型 GPT-4 發佈,具備了多模態理解與多類型內容生成能力。

對小米這樣的公司來說,大模型能力將決定未來的競爭力。大模型會廣泛應用於小米的手機及汽車等業務,包括語音交互、智能家居控制、生活助手等場景。包括華爲、榮耀、vivo和oppo等手機公司都將大模型作爲重要戰略推出,比如華爲的盤古大模型、vivo多模態大模型技術應用 “vivo 看見 - 藍心升級版”等。

然而大模型雖好,卻是個極爲燒錢的事情,需要建設規模龐大的基礎設施,爲大模型提供充足的算力支持。xAI融資主要是爲了快速擴展基礎設施,比如建設了配備價值數十億美元、10萬個英偉達GPU的超級計算機Colossus。而xAI接下來計劃把這一規模擴大到一倍,也就是20萬個GPU。

對小米來說,這種資金規模巨大的投入方式很難跟進。據財報信息,小米預計 2024 年研發費用將達到 240 億元,2025 年更將攀升至 300 億元,從 2022 年到 2026 年的五年內,研發投入預計將超過 1000 億元。

此前,小米在大模型方面實行的是合作與輕量化策略。與阿里雲達成合作,強化旗下人工智能助手多模態 AI 生成能力;採取輕量化、本地部署的大模型策略,在重點場景上持續調優。

而近期大熱的DeepSeek爲雷軍提供了一個更具性價比的大模型策略。DeepSeek被譽爲“AI界拼多多”,性能上與頂尖模型相媲美,同時價格卻遠低於市場平均水平。

尤其是近期剛發佈的全新超大規模模型——DeepSeek-V3。測試結果顯示,DeepSeek-V3已超越諸如 Meta 的 Llama 3.1-405B、阿里 Qwen 等主流開源模型,甚至在性能上逼近 Anthropic 和 OpenAI 等封閉模型,大大縮小了開源和閉源 AI 之間的差距。

但按每 GPU 小時 2 美元的價格計算,DeepSeek-V3 的整體訓練成本約爲 557.6 萬美元。這一數字遠低於通常訓練大型語言模型所需的數億美元。例如,Llama-3.1 的訓練成本估計超過 5 億美元。

這也意味着DeepSeek的基礎設施成本要遠低於其他AI大模型。公開信息顯示,幻方量化投資 2 億元自主研發深度學習訓練平臺 “螢火一號”,並在 2021 年進一步投入 10 億元用於 “螢火二號” 的研發,搭載了約 1 萬張英偉達A100 顯卡。在訓練 DeepSeek-v3 模型時,DeepSeek僅用 2048 個英偉達H800 芯片運行 57 天,消耗 278 萬個 GPU 小時。

據Andrej Karpathy的分析,按照以往經驗,這種能力級別的大模型,通常需要接近1.6萬張GPU,目前行業內的模型大多使用約10萬張GPU。例如,Llama 3 405B模型消耗了3080萬GPU小時。

從業務層面看,小米也許是國內最應該重金投入AI大模型的公司——小米可能擁有國內最豐富的AI入口。截至2024年Q3,小米AIoT平臺連接的IoT設備超8.61億,同比增長23.2%。如果AI大模型能夠順利融入如此之多的IoT設備,小米可以進一步加固自己的競爭門檻。

不過目前對大模型需求最強的業務可能是智能駕駛。自從去年以來,端到端大模型幾乎成爲了國內智能駕駛的標配,而且也的確大幅度提升了智能駕駛的水準。較晚入局造車的小米汽車雖然取得了不俗的成績,但在智能駕駛方面相對保守,而且在智駕總里程方面也落後於業內主流公司。公開數據顯示,小米SU7智駕里程已突破1億公里,理想智駕總里程達到22億公里,華爲智駕總里程超過7.36億公里,小鵬汽車智駕總里程已超過 5.41 億公里。

“天才AI少女”能夠藉助“AI界拼多多”模型幫助小米汽車後來居上麼?

如果您有新聞線索,請聯繫我們:newsroom@caizhongshe.cn