☰

深度 | 挖角DeepSeek“天才AI少女”，雷軍想做什麼？

跨元旦直播前夕，小米（01810）董事長雷軍千萬元年薪挖角DeepSeek“天才AI少女”成爲業內熱點。

一財消息稱，DeepSeek開源大模型DeepSeek-V2的關鍵開發者之一羅福莉將加入小米，或供職於小米AI實驗室，領導小米大模型團隊。

公開信息顯示，還在讀研二時，羅福莉就在人工智能領域頂級國際會議ACL上發表8篇論文（其中2篇一作），後來登上知乎熱搜而迅速走紅。羅福莉畢業後進到阿里達摩院，從事預訓練語言模型，主導開發了多語言預訓練模型VECO。2022年她加入幻方量化，從事深度學習相關策略建模和算法研究，後又加入幻方量化創立的DeepSeek擔任深度學習研究員，參與研發大模型DeepSeek-V2。

據知情人士稱，雷軍認爲小米在大模型領域發力太晚，於是親自挖人，重金招募能夠領軍小米大模型的人才，支付的薪酬水平在千萬元級別。

當下，AI大模型已經成爲科技公司競爭的核心，甚至是焦慮所在。而馬斯克創立的xAI則進一步放大了這種焦慮。

上週，xAI官宣完成60億美元新融資。兼之2024年5月B輪的60億美元，xAI公開的總融資額已經累計120億美元。而這家AI公司2023年7月份才成立。更早一些時間，另一家AI公司Anthropic從亞馬遜（AMZN）獲得了 40 億美元融資，總融資額達到 137 億美元。而 OpenAI 在10月份最新融資66 億美元，總融資額增至 179 億美元。

AI大模型並非新概念，但具有重大影響力和代表性的大模型主要出現在 2018 年之後。2020 年，OpenAI 公司推出了 GPT-3，在零樣本學習任務上實現了巨大性能提升。2022 年 11 月，搭載了 GPT3.5 的 ChatGPT上市，憑藉逼真的自然語言交互與多場景內容生成能力，迅速引爆互聯網。2023 年 3 月，超大規模多模態預訓練大模型 GPT-4 發佈，具備了多模態理解與多類型內容生成能力。

對小米這樣的公司來說，大模型能力將決定未來的競爭力。大模型會廣泛應用於小米的手機及汽車等業務，包括語音交互、智能家居控制、生活助手等場景。包括華爲、榮耀、vivo和oppo等手機公司都將大模型作爲重要戰略推出，比如華爲的盤古大模型、vivo多模態大模型技術應用 “vivo 看見 - 藍心升級版”等。

然而大模型雖好，卻是個極爲燒錢的事情，需要建設規模龐大的基礎設施，爲大模型提供充足的算力支持。xAI融資主要是爲了快速擴展基礎設施，比如建設了配備價值數十億美元、10萬個英偉達GPU的超級計算機Colossus。而xAI接下來計劃把這一規模擴大到一倍，也就是20萬個GPU。

對小米來說，這種資金規模巨大的投入方式很難跟進。據財報信息，小米預計 2024 年研發費用將達到 240 億元，2025 年更將攀升至 300 億元，從 2022 年到 2026 年的五年內，研發投入預計將超過 1000 億元。

此前，小米在大模型方面實行的是合作與輕量化策略。與阿里雲達成合作，強化旗下人工智能助手多模態 AI 生成能力；採取輕量化、本地部署的大模型策略，在重點場景上持續調優。

而近期大熱的DeepSeek爲雷軍提供了一個更具性價比的大模型策略。DeepSeek被譽爲“AI界拼多多”，性能上與頂尖模型相媲美，同時價格卻遠低於市場平均水平。

尤其是近期剛發佈的全新超大規模模型——DeepSeek-V3。測試結果顯示，DeepSeek-V3已超越諸如 Meta 的 Llama 3.1-405B、阿里 Qwen 等主流開源模型，甚至在性能上逼近 Anthropic 和 OpenAI 等封閉模型，大大縮小了開源和閉源 AI 之間的差距。

但按每 GPU 小時 2 美元的價格計算，DeepSeek-V3 的整體訓練成本約爲 557.6 萬美元。這一數字遠低於通常訓練大型語言模型所需的數億美元。例如，Llama-3.1 的訓練成本估計超過 5 億美元。

這也意味着DeepSeek的基礎設施成本要遠低於其他AI大模型。公開信息顯示，幻方量化投資 2 億元自主研發深度學習訓練平臺 “螢火一號”，並在 2021 年進一步投入 10 億元用於 “螢火二號” 的研發，搭載了約 1 萬張英偉達A100 顯卡。在訓練 DeepSeek-v3 模型時，DeepSeek僅用 2048 個英偉達H800 芯片運行 57 天，消耗 278 萬個 GPU 小時。

據Andrej Karpathy的分析，按照以往經驗，這種能力級別的大模型，通常需要接近1.6萬張GPU，目前行業內的模型大多使用約10萬張GPU。例如，Llama 3 405B模型消耗了3080萬GPU小時。

從業務層面看，小米也許是國內最應該重金投入AI大模型的公司——小米可能擁有國內最豐富的AI入口。截至2024年Q3，小米AIoT平臺連接的IoT設備超8.61億，同比增長23.2%。如果AI大模型能夠順利融入如此之多的IoT設備，小米可以進一步加固自己的競爭門檻。

不過目前對大模型需求最強的業務可能是智能駕駛。自從去年以來，端到端大模型幾乎成爲了國內智能駕駛的標配，而且也的確大幅度提升了智能駕駛的水準。較晚入局造車的小米汽車雖然取得了不俗的成績，但在智能駕駛方面相對保守，而且在智駕總里程方面也落後於業內主流公司。公開數據顯示，小米SU7智駕里程已突破1億公里，理想智駕總里程達到22億公里，華爲智駕總里程超過7.36億公里，小鵬汽車智駕總里程已超過 5.41 億公里。

“天才AI少女”能夠藉助“AI界拼多多”模型幫助小米汽車後來居上麼？

如果您有新聞線索，請聯繫我們：newsroom@caizhongshe.cn

深度 | 挖角DeepSeek“天才AI少女”，雷軍想做什麼？

相關資訊