DeepSeek 顛覆了什麼?學習不靠“人盯”,AI自己“卷”自己
本文整理自 InfoQ 策劃的 DeepSeek 系列直播第二期節目——DeepSeek 爆火背後 DeepSeek,純強化學習路線到底有何不同。在直播中,出門問問大模型團隊前工程副總李維博士聚焦推理範式的創新,分析了 R1 Zero 對推理模型平民化的創新貢獻。他提到,DeepSeek 通過開源和透明化,證明了不需要過程監督,僅通過結果控制就能訓練出優秀的推理模型,這大大顛覆了傳統認知以及 OpenAI 所暗示的需要在每一步監督推理強化學習的觀點。
下文爲直播部分內容精選,完整直播回放 & 最新直播預約可關注“AI 前線視頻號”查看。
DeepSeek 的最大功績在於將這一切透明化
InfoQ:“DeepSeek 堅持純強化學習路線,但業界常說 RL(強化學習)是‘煉丹’”——他們如何讓這個過程可控和“平民化”?有什麼"推理範式的創新"?
李維博士:實際上,推理模型的強化學習一直是業界的難題。大約半年前,IIya 等人宣稱預訓練時代已經結束,這意味着單純依靠預訓練模型的規模擴展來提高性能已經難以爲繼。GPT-5 遲遲不能上線也是預訓練式微的一個跡象。因此,業界開始尋找新的增長道路,推理大模型在頭部團隊開始暗流涌動,直到 Open AI 發佈全球第一個推理大模型 O1. 緊接着就是 DeepSeek 的 R1 出圈,這就是 Deepseek 爆火的背景。
從 神神秘秘、據傳引發了 OpenAI 宮斗的 Q-Star 項目開始到 o1 大模型的推出,推理大模型被 AI 主流廣泛公認爲新的範式。這種範式的核心是開啓模型的“慢思考”能力,即所謂 System 2,利用強化學習提升模型在複雜任務中的智能程度。然而,這一切都是閉源的,OpenAI 甚至故意製造了一些神秘感,遮掩其思維鏈的內容。除了少數頭部玩家如 Google 和 Anthropic 在背後悄悄探索追蹤外,其他團隊對這一領域知之甚少。
DeepSeek 的最大功績在於將這一切透明化。它的模型和詳盡的技術論文全部開源,甚至也不怕露怯,在系統裡公開了思維鏈的所有內容。它通過純粹強化學習,證明了即使沒有過程控制數據,僅通過結果控制也能達到頭部推理大模型的水平。這就好像是捅破了一層窗戶紙,讓業界看到了強化學習平民化的道路。
InfoQ:推理範式的創新聽起來很抽象,能否舉個例子?
李維博士:DeepSeek 的 R1 論文非常出色,堪稱大模型領域中的一篇佳作。論文分爲兩部分:一部分是關於 Zero 的研究,這是純粹的強化學習推理方向的成果,非常精彩;另一部分則是基於 Zero 研究成果的實用系統 R1,這是一個真正上線的頭部推理大模型。在開發 R1 時,需要考慮實用性,包括綜合性能、安全性以及各種實用考量等,因此論文中詳細介紹了四階段訓練的最佳實踐(best practice),幫助其他團隊理解和複製這一成果。
論文最精彩的部分還是 Zero 的研究。Zero 的研究證明了一個顛覆性的觀點:與傳統認知(或 OpenAI 所暗示的需要在每一步監督推理強化學習的觀點)不同,實際上並不需要過程監督。僅通過最終結果(即“黃金標準”)作爲監督信號,就能訓練出推理大模型所需的“慢思考”過程。
這是 Zero 的最大亮點,也是其名稱的由來——它借鑑了 AlphaZero 的精神。AlphaZero 在人工智能歷史上開創性地完全不依賴人類棋譜或經驗學習,而是通過自我對弈的再生的過程數據(即:棋局狀態 + 落子 + 評分的三元組步驟數據),實現了零人類監督的強化學習,並最終完全碾壓了人類頂尖棋手。DeepSeek 的 Zero 研究也是如此,它表明在推理任務中,模型可以自主生成內部的過程數據,即思維鏈(CoT,Chain of Thought)序列,而無需人類標註。
具體來說,推理模型最初以數學和代碼爲對象,因爲這些領域本身就存在標準答案。從宏觀上看,這其實是一種典型的端到端監督學習,因爲輸入端(數學題或代碼題)和輸出端(答案或代碼運行結果)都是固定的、已知的。然而,從輸入到輸出的過程非常複雜,信息差很大,這就需要一個“思維鏈”作爲橋樑。就像人類遇到難題時需要分解問題、逐步思考一樣,模型也需要這樣的過程。DeepSeek 的研究發現,模型本身具有自主學習這種深度思考過程的能力,只要給予足夠的時間和空間。如果沒有這個空間,模型就只能直接從問題跳到答案,信息鴻溝大,隨機性就強,成績好不了。
DeepSeek 的解決方案是通過設計一個簡單模板引導模型進行思考。具體說,就是在傳統的監督數據 question+answer 裡面人爲增加了一個標籤 [think]: question+[think]+answer, 通過強化學習的方式,模型會自主填空,再生過程數據 question+CoT+answer,以此迭代學習,CoT 中就自動出現了反思、自我校正等過程。這表明,只要給予模型思考的空間,它就能自主生成思維鏈。非常奇妙!
給模型留夠充分的自主學習空間
InfoQ:動態推理路徑聽起來像 AI 自己“畫思維導圖”——但如何避免它中途跑偏?比如寫代碼時突然開始寫詩?
李維博士:從目前的情況來看,這種可能性幾乎不存在,或者概率極低,可以忽略不計。在 Deepseek 公佈他們的結果和研究細節之前,大家確實對這一點感到困惑:只靠結果監督,沒有過程監督,深度思維不會亂套嗎。在沒有真正進行大規模強化學習實驗之前,這確實是一個很大的疑問。就好比放風箏,你只牽着一根線,讓風箏在天上自由飛翔,你會擔心它會不會一頭栽到地上。
現在看來是過慮了。它不會走偏的原因在於,所有這些推理的強化學習,包括自主生成的推理思維鏈的數據,實際上都是建立在原有的頭部大模型(如 V3)的基礎上的。這些大模型在海量數據的學習過程中,已經很好地掌握瞭如何把話說得順溜。這種“順溜”的背後是條理性。雖然不能說它完全等同於邏輯性,但至少不會偏離到完全不合理的情況。就像一個人說話很順暢,背後的思想相對來說也是有條理的。
所以,模型在原有大模型的基礎上生成數據,經過篩選和強化學習迭代,會越來越條理化。這種思考方式本身是由大模型自然生成的,再加上有選擇機制在不斷強化過程中讓它越來越符合條理地導向正確答案。
話說回來,在研究人員真正做出成果之前,大家心裡還是充滿了懷疑和疑問,不知道讓機器模擬學習人類的高階智能這條路是否真的能走通。如果是一個能力弱的小模型,這條路是否能走通就很難說了。但 V3 本身是一個很強大的基座模型,在此基礎上讓模型自己生成思維鏈,雖然這些思維鏈並不總是很有條理,但並不影響最終結果。因爲這是一個以結果爲導向的強化學習過程,只要堅持用正確和錯誤的結果來控制強化學習過程,即使思維鏈中有時會出現一些偏差,但總體目標是一致的,最終還是能學到推理高難度題目的能力。
再從更大的角度來看,我們發現當大模型發展到一定程度時,日常人類的數據已經基本用盡,高品質的數據也所剩無幾。要進一步提升能力,就必須依靠模型自己生成數據。說到底,AI 發展到現在,需要 AI 自己反哺自己才能進一步提升。
在過去很長一段時間裡,很多人對這一點存在疑問,擔心模型自己教自己會導致退化,或者即使是一個好的模型教一個差的模型,也會有天花板。但現在回過頭來看,再生數據的重要性越來越大。不僅是推理模型,就連多模態大模型也是如此。以 Sora 爲例,我們知道視頻和語言之間的自然對齊數據非常少,很難找到大量對視頻情節進行詳細講解的數據。爲了實現視頻和語言的對齊,Sora 選擇了再生數據的道路,用自己的模型對整個的視頻訓練數據集進行了非常詳細的標註。再生數據助力,Sora 成爲了第一個爆款的視頻大模型。如今,國內的視頻大模型也已經迎頭趕上,如快手的可靈和字節的即夢,甚至比 Sora 還要更強一些,這背後也離不開再生數據的作用。
InfoQ:另一方面,與 OpenAI 的 o1 相比,DeepSeek R1 還有一個顯著亮點是將推理思維鏈應用到了語言文字的創作和風格模仿能力上,這一點可以詳細介紹一下嗎?
李維博士:o1 出來時,大家都知道它在數學和代碼能力上有了顯著提升,因爲標準測試顯示它達到了一個更高的水平。但大家沒有意識到的是,這種推理能力,或者說“慢思維”能力,不僅僅在需要嚴格邏輯推理的領域表現出色,它在傳統的語言文字創作方面同樣可以大放異彩。
傳統上,語言文字能力一直是大模型的強項,大家都知道大模型生成的語言非常流暢。到了像 4o 或 V3,它們寫文章已經很順了,似乎提升空間不大。然而,當要求模型寫一篇古典詩歌,或者模仿魯迅的文風時,之前的模型還做不到。直到 R1 推出,這些問題都得到了解決。從社會效應來看,這其實是非常厲害的。
老實說,真正關心數學或代碼的人並不多,雖然我們知道代碼是今後幾年的一個大方向,自動編程能改變世界。所有 IT 方面的東西歸根結底都是軟件,數字世界是由軟件構成的。如果軟件能力可以從手工編寫變成模型輔助,甚至模型自主編寫,這將極大地提高我們的生產力。這是大家都能看到的,但對普通老百姓來說卻沒有那麼直觀,因爲他們面對的更多是寫文章如何出彩這類任務。
當 R1 的文科能力被大家發現後,不僅僅是極客或者做軟件應用的人看到了推理模型的好處,普通人也爲之奔走相告。一旦上手,任何人都可以成爲詩人、文學家、哲學家,這種震撼是非常大的。在 o1 出來時,大家沒有這種感覺,可能是因爲 OpenAI 沒有意識到,或者至少沒有聚焦這一點。但 DeepSeek 在做代碼和數學推理時,內部肯定已經意識到,這種“慢思維”在文字能力方面也可以提升一大步,尤其是在中文領域。
大家都知道,中文的數據相對沒有英文那麼豐富,所以之前大模型寫英文詩可以寫得很漂亮,但寫唐詩就不夠好。這可能是因爲中文數據要麼量不夠,要麼品質不夠,導致模型學習得不夠到位。我們一直覺得這是一個遺憾,模型寫詩有時押韻,有時不押韻,有時多一個字,少一個字,更不用說平仄,總是有問題。DeepSeek 在這方面肯定下了功夫,其數據品質一定比行業標準更高、更好。
但大模型光有數據還不夠,另一條腿是推理時間的計算量。在用戶實際使用時,增加計算量和思考時間,我們發現模型的文字能力顯著提升了層次,這給大家的震撼非常大。思維鏈是模型“慢思考”的一個特徵。一開始,我們可能想當然地認爲,邏輯思維是它的核心,思維鏈就是要非常嚴謹地符合邏輯的每個步驟,以確保在數理化和代碼中表現出色。
但我們根本沒想到,在文學創作這種領域,並不需要嚴謹的邏輯思維,它更多的是要有想象力,需要反覆斟酌和修改。比如你要寫一篇非常漂亮的文章,或者模仿一種風格,你需要考慮的方面很多,寫古風詩詞要考慮押韻、平仄、用詞,考慮如何用古典文字表達現代概念等。爲了寫出一篇好文章,你需要周密地計劃,這本質上是一種“planning”,而不僅僅是狹義的“reasoning”。可見,慢思維背後的真正價值在於爲最終結果做鋪墊,制定計劃和反覆修正。無論任務是文科還是理科,只要是高難度的任務,都需要這種“planning”的時間,就像我們打草稿、反覆校改一樣,這些都是思維鏈的用武之地。
InfoQ:思維鏈機制具體是如何產生的?
李維博士:DeepSeek 之所以能夠產生複雜的思維鏈,背後是因爲它是基於頭部大模型 V3 訓練的,而 V3 所涵蓋的知識比我們任何個體所瞭解的都要廣博得多得多。在這基礎上,關鍵點是要給模型留下空間,讓它有自主學習的機會。作爲設計者或開發者,需要設計出這樣的空間,讓模型自己去填補、去學習。DeepSeek 就是這樣實現的。它設計了一種格式,在輸入問題 question 和輸出答案 answer 之間,它留下了一個“思考”的空間,用標籤 [think] 來標記: question+[think]+answer。這個 think 標籤就是準備要學 思維鏈(CoT) 的, 雖然開始爲空,Zero 的 research 表明:只要留下 think 的標籤,就給 LLM 自主填補 CoT 留下了空間。此後他們“啊哈”地驚喜發現,越來越條理化的 CoT 居然在 GRPO 組內選優的強化學習迭代算法的指引下,就自主學出來了。啥也不用做,模型就是自己要思考,而且能思考。LLM really wants/tends to think and think deep if given a chance. 比如,它可能會在推理過程中發現自己前面的某個結論與已知事實不符,於是就會自我糾正,說:“不對,這裡可能有偏差。”這種反思和自我糾正的能力,是模型在學習過程中自然形成的。可以想像研究者當時的興奮之情, 簡直就是上帝給他們面授了天機。不但他們“啊哈”, 我們讀論文追蹤他們的人也感覺開了天目,不可思議,但 it just works。Zero research 的美麗就是沒有人工的過程數據的任何干預,完完全全的純強化出來的奇蹟。
從信息論的角度來說,思維鏈降低了困惑度(perplexity),搭建了從難題到答案之間的橋樑,使得得出正確結論的可能性增大,從而提高了模型的智能。
推理模型已經進入“平民化”時代
InfoQ:如果讓您給程序員推薦一個最值得復現的 DeepSeek 模塊,會是哪個?比如各種聲稱幾十美元複製 R1 的 Aha moment?
李維博士:如果讓我推薦程序員羣體最值得復現的 DeepSeek 模塊,大概會是與Zero 研究相關的部分。這種復現並不是從全面能力上,而是證實了 Zero 研究中揭示的關鍵點——機器確實能夠自主學到反思能力或慢思維推理。這是 OpenAI 一直遮掩不讓人知道的,也許他們早就悟出來了,但就是不公開。
現在,我們看到至少有五六組不同的團隊,用很少的資源就復現出了 R1 的這種反思能力。這不僅是一個有趣的實驗,更關鍵的是,它標誌着推理模型已經進入“平民化”時代。以前,大家不知道推理模型是如何工作的,只知道需要大量的過程數據,模型才能學會慢思維。這被認爲是一個難以跨越的門檻,因爲過程數據很難獲取,而且強化學習的不穩定性高、對數據要求也高,所以很多程序員覺得這條路很難走。
但現在,我們知道可以繞過這個最繁難的過程數據,通過有限的資源復現這種“Aha moment”,證明慢思維能力是可以讓模型自主學出來的。基於這個前提,如果你是一個行業專家(domain expert),在自己的項目或應用領域中,你會想:是否可以用這些技術在你的領域實現大幅提升?這是完全可能的。因爲即使是最強大的大模型(如 V3 或 4o),在具體場景中如果不經過優化,也只能達到 60%~70% 的正確率,而在 real life 應用場景中,經驗告訴我們沒有 80% 或 85% 以上的正確率,根本無法上線一個真正有價值的系統。
從大模型的“開箱即用”(out-of-box)結果到真正能投入應用併產生價值,中間存在一個差距。以前,我們想到的唯一方法是收集領域數據進行微調。但現在,我們多了一條路:順着推理模型的思路,讓系統充分發揮推理階段的慢思維能力,從而提升數據質量到可接受甚至出彩的程度。這條路似乎已經打通了。
不過,我的碼農朋友告訴我,他做了一個微調(SFT)與 Deepseek 式強化學習(RL)的對比實驗,發現 RL 的確強過 SFT,但 RL 訓練目前的計算代價還是遠遠大於 SFT。效果好於 SFT 可以理解,因爲 SFT 的數據總是非常有限的,而 RL 自主再生的數據成功強化的話,會遠遠大於 SFT 數據。
仔細看 R1 的設計,它是一個實用系統,不像 Zero 那麼純粹。Zero 是一個研究項目,旨在證明可以排除人類干預來構建推理模型。但 R1 是爲了實際應用,所以它結合了微調和強化學習:遵循他們自己創新的 SFT+RL+SFT+RL 的四階段訓練的 pipeline。它在第一階段是微調,使用了 2,000 條左右的人類過程數據來提高效率,他們稱爲“冷啓動”。強化學習之後,又加入了微調和最後的偏好強化學習,以確保合適的數據配比和能力平衡,以及與人類偏好的對齊。這種設計是經過深思熟慮,可能經過了很多嘗試和調整,最終呈現出的一個最佳實踐。
雖不好說 R1 的這種設計一定就是絕對的最佳方案,但它確實提供了一個很好的思路:現在我們有兩個工具——SFT 和 RL。如果能夠將這兩個工具很好地結合起來,互相補充,那麼在實際應用場景中,我們就能構建出更好的系統。
從更廣泛的意義上說,DeepSeek 的出現不僅是因爲各種原因而短暫火爆,它更重要的作用是極大地加速了大模型嚮應用領域發展的速度。這對整個行業來說是一個巨大的利好刺激。
InfoQ:有人說大模型是“暴力美學”,但 OpenAI 的前首席科學家、聯合創始人 IIya 說預訓練到頭了,怎麼講?推理模型出現的背景就是增加了又一個暴力美學的 scaling law 嗎??
李維博士:這更像是技術聚焦點的轉移和技術創新的範式轉變。大模型涉及三大塊:首先是預訓練,這是大模型的基礎能力,從海量數據中學習基本規律;其次是後訓練,最初主要是微調,OpenAI 早期也用了一些強化學習(如 RLHF)來對齊人類偏好,但到了 Meta 時,他們甚至放棄了典型的 RLHF,代之以更簡單的 DPO,因爲與很多人一樣,他們玩不轉。最後是推理階段的工作,即模型上線後與用戶交互的階段。
這三個階段理論上都可能找到資源投入與性能提升之間的正相關 S 曲線,即 scaling laws 的某種表現函數。在過去,預訓練是最受重視的部分,大家認爲只要數據量不斷加大、模型規模足夠大,能力就一定持續提升。
LLM Scaling 的底層邏輯是什麼?爲什麼到了千億 tokens 這種以前難以想象的數據規模,大模型依然顯得"吃不飽"?爲什麼從千億擴展到萬億 tokens,scaling law 依然有效?
這個現象的關鍵在於 LLM 是序列學習(編碼)和序列推理(解碼)的系統。序列本身是一維的,但序列中蘊含的 patterns 和規律性卻是高維的。舉個例子:即使是簡單的"貓追老鼠"這樣的序列,背後可能涉及物種關係、捕食行爲、空間運動等多個維度的知識。這種多維知識表現在序列層面,就會發生天然的組合爆炸。對大數據的"大胃口"正是應對這種組合爆炸的有效策略。
然而,人類自然產生的高質量數據是有限的。預訓練已經幾乎吃盡了現有的高質量自然數據。業界開始意識到數據增長的困擾,性能提升也變得困難。GPT-5 難產,據傳投入大量算力卻收效有限,這表明預訓練可能遭遇了瓶頸。
於是,業界開始探索另外的 AI 智能增長曲線。強化學習的推理模型就是在這種背景下走到主流舞臺的中心:應該在後訓練中加入純粹的強化學習。以前的強化學習依賴人類偏好,但這次是讓模型在得出答案之前有更多思考時間,學習背後的規律。V3 已經做得很好,但當時除了業界並沒有在社會上引起太大轟動。直到 R1 出現,Deepseek 才真出圈了,成了春節後最受關注的大衆話題,在海外也引發了熱議和震驚。R1 代表了一種新的範式。在 R1 之前,只有 OpenAI 出了 o1 這種推理模型,給人一種高不可攀的感覺,大家不知道如何跟進。然而,R1 不僅復現了 o1 的能力,還更加透明、清晰。這種反差進一步凸顯了 R1 作爲開源大模型引領者的重要性。
未來腦洞
InfoQ:DeepSeek 乍看就是工程上的極致化,爲什麼會引起全世界的轟動?它的獲客速度(一週上億)超過了 ChatGPT 核爆的時候?它的歷史地位到底如何?
李維博士:從我個人的體會和感受來說,大模型的發展歷程中,ChatGPT 的爆火是一個標誌性事件。其實我們業內人在 ChatGPT 出現之前就開始關注大模型了,至少從 GPT-3 開始吧。當時 GPT-3 的 Playground 出現,我們樂在其中,就已經感覺到一場風暴要來了。但從整個社會的感知來看,真正引發全社會震動的還是 ChatGPT 的出現,它像核爆一樣震撼了我們,超出了所有人的預期。ChatGPT 出來,我們就陷入了一種癡迷的狀態。
R1 的 出現,我認爲是繼 ChatGPT 之後的第二個重大震撼。當然,在 ChatGPT 和 R1 之間也出現了一些有影響力的大模型,比如 4o,它也是一個了不起的里程碑。我們當時覺得 ChatGPT 已經很好了,3.5 版本已經很出色了,但 4o 的出現證明了它還可以更好。我們一直在案頭使用它。再後來出現了 Sora,這種視頻大模型也給人帶來了震撼。我個人還特別喜歡一個叫 Suno 的音樂模型,它在音樂創作方面表現出色,讓我覺得自己彷彿一夜之間就能成爲音樂家,想寫什麼歌就寫什麼歌,還能配上自己的視頻。這些模型都給人帶來了不同階段的震撼,但都沒有 R1 這麼強烈。
如果讓我排序的話,我認爲 R1 的震撼力僅次於 ChatGPT,甚至超過了 4o 和 Sora 所創造的轟動效應。R1 的震撼感有點類似於當年 ChatGPT 剛出現時的感覺,讓人癡迷。ChatGPT 是開天闢地的大模型,R1 總體上是一個追隨者,儘管它有很多創新亮點,有些方面甚至超越了之前的模型,比如在古典詩詞創作和文風模仿方面。作爲追隨者,能在太平洋兩岸乃至全球引起如此大轟動,是奇蹟般的成就。
從實際效果來看,R1 的產品化非常成功。它在一週內就獲得了上億客戶,遠遠打破了 ChatGPT 所創造的記錄,提升了整個社會對 AI 的感知度。此外,從地緣政治對技術應用的影響來看,國內很多用戶一直渴望使用全世界最先進的大模型,比如 GPT 系列、Claude 或 Gemini,但常常夠不着。而 R1 的出現,讓人們不用擔心國內外的限制。這些也都是促成 R1 快速普及的因素。
InfoQ:您理想中 AI 編程的終極形態是什麼?是程序員對着 AI 說“給我做個抖音”,它就直接輸出可部署的代碼 + 運維方案嗎
李維博士:總是有兩類人:懷疑派和樂觀派。像 Ilya 這樣的人,認爲通用人工智能(AGI)已經迫在眉睫,超級智能(ASI)也在不遠的未來,所以現在最大的問題是確保超級智能的安全性。
Anthropic 的 CEO 預計,在未來 3 到 5 年內,大模型將實現真正的突破,不僅僅是目前讓我們震撼的表現和 demos,而是真正能在生產力上對整個社會帶來革命性的改變。他們所說的,歸根結底就是AI 能規模化平替人類的體力勞動和腦力勞動。目前大模型雖然很熱鬧,但在社會生活中的實際應用還遠未達到上一代移動互聯網平臺的水平。上一代的 super apps,比如美團、滴滴、小紅書、抖音等,它們改變了我們日常生後的主要方面,無論吃穿住行還是通信和娛樂,它們最大程度縮短了供應商和客戶之間的距離,這些價值我們每天都能感受到。而玩大模型雖然有趣,但在生活層面的實際價值還不明顯,應用層面還處於爆發的前夕。
值得指出的是,DeepSeek 的出現降低了大模型應用門檻,爲應用鋪平了道路,雖然目前我們還沒有進入應用真正爆發的時代。未來,當 AI 應用真正爆發時,會是什麼時候、什麼樣子呢?我認爲,最終目標是 AI 在腦力勞動和體力勞動中全面代替人類。大模型對白領階層的衝擊,跡象已經很明顯,甚至連程序員羣體都難倖免。體力勞動方面,具身智能發展也很快,無論是人形機器人還是機械手,都在逐步代替人類的體力勞動。
當然,這也會帶來副作用,比如大量工作崗位消失,社會如何適應這種生產力大發展但缺乏工作崗位的狀態,是另一個層面的討論。但從 AI 本性和最終目標來看,AI 的發展可以有兩個里程碑:一是何時能替代人類 50% 的工作,讓社會只需要一半人工作,剩下的人通過基本收入保障(UBI)等方式維持一個體面的自由生活,在我看來這就是 AGI 到老的標誌;二是何時能替代 90% 的人類工作,這可能算是所謂的超級智能(ASI)出現的時候,某種意義上的技術共產主義。
DeepSeek 的成功是否是開源的勝利?下階段開源策略將會如何影響 AI 領域相關企業的商業模式?開源與閉源路線的未來走向如何?2 月 17 日晚 19:30,我們將連線 PPIO 派歐雲聯合創始人兼 CTO 王聞宇解讀 DeepSeek 發佈即開源的決策背後考量。