後Transformer時代,AI將何去何從?(下)|【十萬字】深度研報
展望AI未來
人類的大腦估計已經包含860億個(10^11次方)神經元,這些細胞信號傳遞到對方通過多達100萬億(10^15)突觸連接。
GPT-4是8個2200億參數組成的混合專家模型,8 x 220B = 1.76萬億連接,與真實人腦仍然差50多倍。
人腦功耗10w。
一張NVIDIA A100功耗250w,更別說萬卡集羣,簡單計算相差25萬倍。
人腦神經元種類多樣、神經遞質多樣,多爲化學信號,維度信息高。
人工神經元結構簡單單一,傳遞爲簡單電信號,維度信息低。
人工神經元之間的連接則是一開始就被固定好了的,比如根據實際需求需要設計一個多大的神經網絡網絡模型,那麼這個網絡模型的參數和連接方式就基本已經被固定了。雖然可以通過神經元之間的隨機失活等方法可以局部的改變神經網絡內部的連接,但是這種改變仍然無法讓人工神經元像生物神經元一樣根據外界輸入的數據信息而選擇性的提取需要的特徵信息。
生物的神經元之間是沒有任何順序的,可以隨時根據外界傳入的信息有條件的隨意連接,但是人工神經網絡內部的神經元之間是有順序排列的,也就是神經網絡的層數,人工神經元只能在神經網絡的不同層之間發生連接,由於數學矩陣運算的規律,在同一層神經網絡之間的神經元是無法連接的。
而且無論從目前效果和上述的巨大區別上,目前的LLM離真正的AGI還有很大的差距,想象看一個人類擁有互聯網級別信息的時候,智慧程度會跟現在LLM一樣嗎?
所以很多人說數據即將用盡的觀點是偏頗的,算法倒是學習效率低下才是本質。
但也說明深度仿生的聯結主義潛力巨大。但未來會如何呢?
奧特曼在今年10月份接受採訪說:伊利亞(OpenAI前首席科學家伊利亞·蘇茨克維)總是說,這些模型的真正意義在於壓縮,我們要找出如何壓縮儘可能多的知識,這就是我們打造人工智能的方式。壓縮就像是智慧密鑰,我已經對此冥想很久,但我確信自己仍然沒有完全理解它,但那裡有些更深刻的東西。
就上上文提及到的注意力機制一樣。隨着進化的腳步,生命體本身由簡至繁,而人類歷史發展到今天,我們的生存環境和所需要學習、掌握的工作任務和過去的叢林生活複雜到不知多少。爲了應對這個變化,大腦會如何進化呢?是發展成一個同時處理龐大的信息並且容量超大的大腦,還是發展成雖然容量不大,但可以迅速地分析信息,並配有一個高效率信息選擇和投注機制,將所有計算能力都放在重要的任務上的大腦呢?很明顯的,後者更有優勢,而且大自然也爲我們選擇了這個目標。
人腦的注意力是一個用來分配有限的信息處理能力的選擇機制。而Transfomer的自注意力是通過概率分佈和權重分配實現該機制。
"預測即壓縮, 壓縮即智能"
這一觀點最早由Ilya Sutskever在其博文和訪談中提出。Ilya Sutskever在不同場合提到,當我們談論“預測下一個Token”時,本質上是在進行信息壓縮。一個理想的預測模型, 應該能夠以最簡潔的形式(即最短的程序或描述)來表示輸入數據中的關鍵模式和規律。預測是通過生成特定數據集的最短程序來實現的【46】。
Geoffrey Hinton從另一個角度闡釋了壓縮與智能之間的聯繫。他指出, 人工智能系統之所以能夠展現出理解、類比、創新等高級認知能力, 關鍵在於它們能夠發現並利用不同事物和概念之間的共同結構。如果AI系統能夠掌握這種高度概括的表示,就可以實現跨域的類比和泛化。而要做到這一點,就需要AI系統從大量表面差異巨大的事例中提煉和壓縮出最本質的共性。換言之, 機器要成爲一個智能的類比推理者, 首先需要成爲一個高效的信息壓縮者。
可以抽象的理解爲:壓縮就是尋找第一性原理的過程,數據越多,總結出的第一性原理更具有普遍性。
綜合Sutskever和Hinton的觀點, 我們可以得出以下幾點認識:
1. 從信息論的角度看, 學習的本質是一個逐步壓縮數據的過程。通過在輸入數據中發現可泛化的模式和規律, 學習系統可以用更簡潔的表示來重構原始信息, 從而降低其描述複雜度;同時減少信息在壓縮中的損失。
2. 大規模機器學習, 尤其是基於海量數據訓練的深度神經網絡, 可以看作是朝着最優壓縮逐步逼近的過程。隨着模型規模和數據量的增大, 神經網絡能夠捕捉到越來越抽象和一般化的特徵, 其內部表示可以壓縮更多的信息。
3. 壓縮能力與智能水平密切相關。一個高度智能的系統, 應該能夠基於少量信息對世界進行大量的重構和預測。這就要求系統在學習過程中最大限度地提取和內化數據中的關鍵模式和規律。因此,追求更強的壓縮能力, 可以爲我們指引通往AGI(通用人工智能)的道路。
楊立昆在題爲《朝向能學習、思考和計劃的機器進發》的演講中,清晰地指明瞭以自監督學習爲代表的 AI 系統的優缺點。
我們今天正在使用的LLM還無法做到真正的理解世界,這其中有很多原因,但最主要的原因是:LLM的訓練方式是用一段缺失了部分文字的文本去訓練一個神經網絡來預測缺失的文字。事實上,LLM並不預測詞語,而是生成字典中所有可能詞語的概率分佈,然後從概率分佈中選擇一個詞放入文本序列的尾部,再用新生成的文本去預測下一個詞,這就是所謂的自迴歸預測【47】。
但這種自迴歸的方式與人類的思維方式有很大的不同。人類大部分的思考和規劃都是在更抽象的表徵層面上進行的--人類對思考的意識只存在於高級表徵中-比如人類不是靠像素點識別物體的,而是又像素點形成的光影、輪廓等,知識來源於此,而不是在更深層次的神經網絡中,換句話來說,如果輸出的是語言(說出的話)而不是肌肉動作,人類會在給出答案之前先思考好答案。但是LLM不這樣做,它們只是本能地一個接一個地輸出文字,就像人類的某些下意識動作一樣。
然而,單靠這種方式,我們並不能真正做到推理,也很難處理非離散的複雜現實數據。要實現人類級別的智能,我們仍然缺少一些至關重要的要素。比如,一個十歲的孩子學會收拾餐桌、把碗盤放進洗碗機,只需看一遍就能學會。而一個17歲的青少年經過大約20小時的練習就能學會開車。然而,我們還沒有達到五級自動駕駛,也沒有能夠幫忙收拾餐桌的家用機器人。
實現真正的智能需要的一個關鍵能力是“分層規劃”,也就是我們人類在面對複雜問題時,能夠分階段、分層次地進行解決。比如從紐約去巴黎,我們會先計劃怎麼到機場,而不是從一開始就去計算整個行程中每一步的肌肉動作。如何讓AI具備這種分層規劃能力,目前仍是一個未解的難題。
真正的世界模型是:我對某時刻T時世界狀態的想法,疊加此時我可能採取的行動,來預測在時間T+1時的世界狀態。這裡所指的世界狀態並不需要代表世界的一切,不一定需要包含所有的細節,它只需要代表與這次行動規劃相關的足夠多的信息。
十年來,我們使用生成式模型和預測像素的模型,試圖通過訓練一個系統來預測視頻中將發生什麼來學習直觀物理,但失敗了,我們無法讓它們學習良好的圖像或視頻表徵,這表示,我們無法使用生成式模型來學習對物理世界的良好表徵。
目前,看起來可以更好地構建世界模型的一種新方法是”聯合嵌入”,稱爲JEPA(聯合嵌入式預測架構),其基本思路是獲取完整的圖像及其損壞或轉換的版本,然後將它們同時通過編碼器運行(一般來說,編碼器是相同的,但也不一定),然後在這些編碼器之上訓練一個預測器,以根據損壞輸入的表徵來預測完整輸入的表徵。JEPA與LLM有什麼區別?【48】
LLM是通過重建方法生成輸入,生成未損壞、未轉換的原始輸入,因此必須預測所有像素和細節。而JEPA並不嘗試預測所有像素,只是嘗試預測輸入的抽象表徵,從本質上學習世界的抽象表徵(例如風吹樹葉,JEPA在表徵空間中預測,會告訴你樹葉在動,但不會預測每個樹葉的像素)。
JEPA的真正含義是,以自我監督的方式學習抽象表徵,這是智能系統的一個重要組成部分。人類有多個抽象層次來描述世界萬象,從量子場論到原子理論、分子、化學、材料,一直延伸到現實世界中的具體物體等,因此,我們不應只侷限於以最低層次進行建模。
基於該理念設計的 V-JEPA 是一種“非生成模型”,通過預測抽象表示空間中視頻的缺失或屏蔽部分來進行學習。
四、大模型產業鏈——綜述
產業鏈的價值規則
框架根據具體的工作流盡可能的列出行業,有價值的筆者總結性多講,沒有變動的且基礎的介紹一下。關鍵的熱點行業,筆者會綜合講述中美企業和商業環境的不同之處。
筆者對有價值的定義:
1 技術顛覆 -- 先發的知識(人才)壁壘
2 商業模式顛覆 -- 確保和大公司儘量在同一起跑線
3 有一定的市場規模的想象空間
五、基礎層
算力
這裡只講述整裝硬件層面的算力提供商以及基礎的軟件的趨勢。不涉及芯片行業的上游。
LLM對算力的需求飆升
我們看到,爲追求Scaling law帶來的涌現效應,在位廠商模型訓練的算力規模不斷擴大,對AI算力基礎設施的需求形成支撐。根據中國信通院《中國算力發展白皮書(2023)》,GPT-3的模型參數約爲1,746億個,訓練一次需要的總算力約爲3,640 PF-days,即以每秒一千萬億次計算,需要運行3,640天;2023年推出的GPT-4參數量可能達到1.8萬億個,訓練算力需求上升至GPT-3的68倍,在2.5萬個A100上需訓練90-100天【49】。
針對LLM的新供應
按照芯片的設計理念及用途,AI算力芯片可分爲通用芯片和專用芯片,二者各有特點。
通用芯片爲解決通用任務而設計,主要包括CPU、GPU(含GPGPU)和FPGA。
專用芯片(ASIC)爲執行特定運算而設計,具備算法固化特性,主要包括TPU(Tensor Processing Unit,張量處理器)、NPU(Neural Network Processing Unit,神經網絡處理器)等。
在通用算力芯片當中,CPU內核數量有限,採用串行方式處理指令,適合於順序執行的任務;GPU採用衆核結構,最初開發用於圖形處理,而後憑藉其強大的並行計算能力適用於AI通用計算(GPGPU);FPGA是具備可編程硬件結構的集成電路,其可編程性和靈活性可快速適應AI領域的算法變化。與專用芯片相比,通用芯片主要優勢在於靈活性及生態系統的完善性,可適應高速迭代的算法任務,同時GPU保留的渲染能力可適應大模型的多模態發展,而其主要劣勢則在於較高的功耗水平和較低的算力利用率。
專用芯片的優勢則在於通過算法固化實現了更高的利用率和能耗比,以及更低的器件成本,同時ASIC更適合大規模矩陣運算;其主要劣勢是前期投入成本高、研發時間長,且只針對某個特殊場景,靈活性不及通用芯片【50】。
ASIC(Application Specific Integrated Circuit)是專用集成電路,針對用戶對特定電子系統的需求,從根級設計、製造的專用應用程序芯片,其計算能力和效率根據算法需要進行定製,是固定算法最優化設計的產物。經過算法固化後,專用芯片與軟件適配性較高,從而能夠調動更多硬件資源,提高芯片利用率。而通用芯片由於算法不固定,其硬件往往會產生冗餘,導致芯片利用率較低。
目前價值最大的仍然是GPU,它更適應高併發多分佈式的訓練,LLM訓練和推理以它爲主,95%的算力的都是由它提供。
就像工廠一樣,一開始會去買標準的設備(通用芯片)進行生產,後續規模擴大了,更瞭解客戶的需求後,產品變的差異化,這時候會去找產線集成商如西門子,定製化產線(專用芯片);本質上來說,背後就是需求和廠商供應的trade-off(成本等),但是需求是第一位,大規模量產和定製化的前提都是同質化的需求在支撐。
目前,我們對LLM的訓練和推理算法皆有不同程度的優化,商業場景還在積極探索,甚至是算法本身都在快速變化,ASIC等專用芯片爲時尚早。
深度神經網絡對計算芯片的需求主要圍繞解決兩個問題展開:
(1)解決AI計算芯片和存儲間數據通信需求,AI模型中,大量運算資源被消耗在數據搬運的過程。芯片內部到外部的帶寬以及片上緩存空間限制了運算的效率。
(2)在控制功耗的同時不斷提升專用計算能力,對AI芯片進行定製,在特定場景下實現AI芯片的高性能和低功耗,解決對卷積、殘差網絡等各類AI計算模型的大量計算需求。
衆所周知的芯片斷供原因,國內廠商無法在正常的渠道買到高端的芯片,如何彌補?
除了走私外,異構芯片的混訓(國產芯片+國外芯片;本地計算+雲計算)成爲了主流,但隨着算力的不斷補充和IDC的建立,並且模型參數的變小,此類問題將快速解決。能看到的是A100芯片的租賃價格幾經對摺。
國外的算力中心如特斯拉、谷歌、亞馬遜的萬卡集羣都將在近期建設完成。特斯拉的有10萬塊H100。
新AI算力市場推算
訓練成本
推理成本高於訓練成本
在給定訓練GPT-3模型所需運算操作數量的情況下,即便得知單卡算力,以及要求的訓練時間,量化加速卡數量實際上也存在難度,因爲數據集精度、數據集迭代次數,以及GPU的使用效率等等因素都是未知變量【51】。
在此,我們直接採用OpenAI訓練集羣模型估算結果作爲參考:標準大小的175億參數GPT3模型大概需要375-625臺8卡DGX A100服務器進行訓練(耗費10天左右時間)。目前來看,訓練大模型的硬件投入基本3,000張-5,000張A100 GPU來完成。那麼,以單A100卡售價10,000美元來計算,生產大模型所需的訓練用GPU一次性採購拉動在千萬美元級別,具體金額決定於參與生產大模型的終端用戶家數,中性情形下,我們假設8家廠商採購訓練卡,單一廠商需求量500臺DGX A100服務器,可帶來的訓練AI加速卡市場空間約爲3.2億美元。
推理應用和實際業務上線關係緊密,硬件需求要結合對效率要求來進行部署。以A100 GPU單卡單字輸出需要350ms爲基準計算,假設每日訪問客戶數量爲2,000萬人,單客戶每日發問ChatGPT應用10次,單次需要50字回答,則每日消耗GPU的計算時間爲972,222個運行小時(2*10^7*10*50*350ms = 3.5*10^12ms = 972,222h),因此,對應的GPU需求數量爲40,509個。同樣以單卡10,000美元的售價計算,2,000萬用戶上線在推理端所創造的AI芯片市場空間約4億美元左右,但在中性情形下,假設日活用戶數達到1億用戶,在單客戶發問次數、單次回答字數不變的情況下,我們測算出推理相關用AI芯片市場空間有望達到20億美元【51】。
GPU芯片&服務器提供商
全球GPU市場競爭格局較爲集中,當前NVIDIA處於市場領導地位,根據Verified Market Research數據,2022年在全球獨立GPU市場當中佔比約80%。
國產AI雲端訓練和推理芯片廠商參與者衆多,大部分涌現於2017年以後。(1)華爲Atlas 300T訓練卡(型號9000)基於昇騰910 AI芯片,單卡算力280TFLOPS FP16;(2)寒武紀思元370單卡算力256TOPS INT8,是第二代產品思元270算力的2倍;(3)百度崑崙芯2代AI芯片單卡算力爲256TOPS INT8 / 128TFLOPS FP16;(4)海光DCU的優勢則體現在生態兼容性,其ROCm GPU的計算生態和英偉達CUDA[1]高度相似,被稱爲“類CUDA”,有利於用戶可快速遷移,2022年海光深算一號DCU已商業化應用,深算二號正在研發中【52】。
目前國產產品依然與全球領先水平存在2-3年的差距。
國產最強的AI芯片性能大約爲512Tflops,不僅不如NVIDIA的A100,甚至只有H100的四分之一左右。例如,寒武紀的思元590在某些特定應用場景下接近A100 90%的性能,但綜合性能仍只能達到A100的80%左右。
國產AI芯片企業雖作爲後發者,依然擁有市場機會。一方面來看,摩爾定律的迭代放緩使得海外龍頭企業開發新產品面臨更大的挑戰,中國企業有望以更快的速度向海外現有產品看齊,但供應鏈方面存在不確定性,對後發企業構成利好【53】。
GPU的算法和生態系統構建也是GPU設計中的重要部分。GPU算法需要與硬件緊密結合,以提高GPU的性能和效率。同時,GPU的軟件生態系統還需要支持各種開發工具和框架,以便開發人員可以更輕鬆地利用GPU進行高性能計算和機器學習。
基於高層次抽象,英偉達通過CUDA統一編程平臺提供了一套完整的開發工具鏈,包括編譯器、調試器和性能分析工具,以及豐富的庫函數(加速算子執行、實現卡間通信),爲開發者提供了便利,降低使用成本。且CUDA統一編程平臺可支持多個操作系統,且支持各類GPU(包括數據中心級產品、消費級產品);全球安裝的CUDA兼容的NVIDIA GPU數量已經達到了數億級別【50】。
由於硬件端AI領域的先發優勢,大量的AI深度學習訓練開源項目和框架如PyTorch、TensorFlow等與英偉達GPU後端實現了原生適配,且兼容DeepSpeed、Megatron-LM等分佈式加速工具;推理端來看,英偉達同樣擁有Tensor-RT引擎。總結來說,主流AI軟件棧的最佳優化方案均與英偉達CUDA生態及GPU深度耦合。通過日積月累,英偉達硬件環境上的開發者數量衆多,有龐大而活躍的社區以及大量可用的文檔、教程、論文,開發人員對CUDA的熟悉程度和專業度更高,導致新人採用CUDA面臨的時間成本更低。到2023年底,CUDA軟件包已累計下載4800萬次,證明其廣泛的用戶基礎和開發者社區的活躍度。
英偉達對外部企業、學校、以及不同應用領域均有良好的解決方案,對不同類型客戶進行深度綁定服務。
可以說其系統生態的繁榮爲其GPU硬件平臺提供了最大的開發生態護城河!
能和其英偉達一較高下的,恐怕只有同時掌握前後端並擁有獨立開發生態的華爲了。
其餘的大部分做ai芯片的公司短暫的收入提升來源於國內IDC的建設,渠道爲主,生態意識低。
集成算力提供商
一般來講,服務器的定製化程度高,大廠的服務器是自己採購,自己搭建,中小企業購買會多一點。再加上雲計算的趨勢,保密單位的需求會硬一點,否則雲計算性價比更高。
AI服務器(多個GPU等芯片集成)競爭格局方面,當前互聯網雲計算廠商的白牌服務器佔主導,未來隨着邊緣側應用的成熟,品牌服務器廠商份額也有望提升。AI服務器分爲品牌和白牌兩類。所謂白牌,是由互聯網雲計算大廠在雲計算的規模效應下,與傳統的服務器代工廠EMS企業合作開發定製化的“白牌”服務器;所謂品牌,是由專門的服務器廠商開發的面向企業、政府、運營商和金融等銷售的通用型服務器【52】。
2023年以來,政府智算中心建設的規模與節奏均有顯著提升。通過梳理各地政府官網信息,我們整理了2020年-2024年政府智算中心建設情況,發現:1)2023年以來智算中心建設明顯加速,各省市地方政府均在積極推進智算中心建設;2)2020年-2023年間已投運政府智算中心單期算力建設規模一般在500P以下,而隨着AI帶動算力需求的提升,單個智算中心的體量提升,2023年下半年之後建設與投運的智算中心出現較多1000P以上的算力規模【49】。
華爲昇騰、寒武紀等國產AI算力芯片成爲政府主導的智算中心的重要算力基座。北京昇騰人工智能計算中心利用“政府引導+市場化運作”平臺建設模式,政府負責頂層設計、政策保障;中關村發展集團負責設施建設、配套服務、提供空間載體,最終使用華爲自主研發的昇騰芯片,互利共贏。長沙昇騰人工智能創新中心由長沙市政府和湖南湘江新區共同出資建設,採用基於昇騰910處理器的兆瀚CA9900 AI集羣硬件,總算力最高可達1024 PFLOPS(FP16)。政府智算中心建設提速,有望進一步拉動國產AI芯片的需求。
根據三大運營商2024年資本開支指引,運營商投資重心將繼續向算力網絡建設傾斜。具體來看,中國移動計劃2024年在算力網絡領域投資475億元,佔當期資本開支的27.5%,同比增長21.5%;中國電信資本開支在產業數字化方面的投資佔比同比提升2.5ppt至38.5%,絕對額達到370億元,其中公司計劃在雲/算力投入180億元;中國聯通則表示算網數智投資堅持適度超前、加快佈局【49】。
三大運營商智算中心建設持續推進。根據2023年度業績發佈會,中國移動計劃2024年加快算力多元供給,累計智算規模規劃超過17 EFLOPS,新部署智算增幅接近70%;中國電信持續推進智能算力建設,2023年公司智算算力新增8.1EFLOPS,增幅高達279.3%,累計規模達到11.0 EFLOPS,2024年公司預計智算規模將繼續提升10 EFLOPS至21 EFLOPS(FP16);根據公司公告,中國聯通算力中心已覆蓋國家8大樞紐節點和31個省份,數據中心機架規模超40萬架,完成29省千架資源佈局,骨幹雲池城市覆蓋超230城,MEC節點超600個。我們認爲,運營商對智算場景投入的持續加碼有望帶動服務器、網絡設備等算力基礎設施需求節節攀升,在電信雲網設備側具備穩定供應能力的廠商有望充分受益。
騰訊、百度、阿里、字節、商湯等企業積極推進智算中心佈局,阿里張北超級智算中心總建設規模達12000PFLOPS 百度與騰訊均已在全國多個地區建立了智算中心,包括廣州、上海、北京等,字節跳動則依託於潤澤科技等進行智算中心相關的IDC投資【49】。
互聯網廠商當前算力構成仍以英偉達爲主。根據TrendForce,中國雲計算廠商目前使用的高端AI芯片中英偉達的芯片佔比約爲80%,當前的國產化率水平較低。考慮到貿易摩擦的影響,海外核心高端AI芯片難以進入大陸市場,國產替代需求迫切性高。
國內AI加速芯片廠商把握髮展機遇,有望滲透進入互聯網市場。根據TrendForce,2023年在全球AI服務器採購需求中,字節跳動/百度/騰訊/阿里等中國互聯網廠商採購佔比約8.5%,爲AI服務器的重要需求方。我們認爲隨着AI大模型加速迭代,國內互聯網廠商對於AI服務器需求有望進一步提升,國產AI芯片潛在市場空間廣闊。我們看到,互聯網廠商積極推動與國產算力芯片的合作,根據公司公告,海光DCU支持包括文心一言在內的多個大模型的適配和應用;百度飛槳與海光DCU實現生態兼容性認證;而華爲與百度合作推進昇騰AI上與飛槳+文心大模型的適配。我們認爲,隨着芯片的性能迭代及生態完善,國產算力芯片在互聯網側的應用有望逐步增加。
總而言之,由於斷供的風險,國內芯片的國產化率逐漸提升,但在AI算力方面,主力軍仍是英偉達。目前AI將會以通用芯片爲主。
算法
這裡的算法指的是流派、學習範式等AI底層知識和洞悉的集合,由稀缺的人才掌握,是產業鏈裡的核心的核心,沒有之一,算法決定了一切,主流算法的改變,可以改變所有的工作流和產業鏈行業的價值。
例如之前的CNN等算法的學習範式是監督學習,數據的輸入和輸出是pair的(匹配的),且需要標準的數據--大量的人工標註,催生了人力密集的數據標註行業,但是自迴歸的decoder-only transfomer算法下是自監督學習,數據不需要標註,請問新的大模型下,預訓練還需要人工標註嘛?RLHF和微調的部分還會需要少量的人工,但也是大大減少了需求。
算法的產出來自於關鍵的實驗室和大公司;可以關注其論文的產出,來跟進;一些跟蹤的渠道將會在最後展示。
RVKW
最新RVKW-相比transfomer這種方法有效地捕獲了序列中不同位置之間的依賴關係,同時減少了模型的計算複雜度和存儲需求;它是RNN的一種,建議大家持續關注,目前該算法還在雛形中,爲時尚早,有意思的是,發明該算法的人是中國人彭博。
數據
數據來源
AI公司獲取語料數據一般有開源數據庫、自有/自建數據--爬蟲、購買數據產品授權--專業語料數據服務商處這三種方式。
以GPT-3爲例,其訓練時使用的語料庫數據主要來源爲Common Crawl爬蟲(60%)、WebText2(22%)、Books1&2(各8%)和Wikipedia(3%)
擁有更高質量、相關的數據,可以更好的訓練or微調模型;可獲得的數據取決於行業和公司業務,是大模型產業鏈裡最重要的壁壘之一;也往往是大公司的先發優勢,初創公司出來公開的數據集,必須通過創新的商業模式來獲取更多的數據。
不同國家的數據管理
當然避不開不同國家數據管控問題。
國外:歐盟將數據分割爲“個人數據”和“非個人數據”,但個人數據嚴格屬於自然人,企業數據使用權受到極大限制;美國的數據要素制度採取實用主義原則,迴避了數據所有權問題,未對數據進行綜合立法,只有針對跨境數據主權、行業隱私法、消費者隱私等分別立法。
國內:2022年12月,中共中央國務院《關於構建數據基礎制度更好發揮數據要素作用的意見》(簡稱“數據二十條”)對外發布,提出構建中國特色的數據產權制度、流通交易制度、收益分配製度和數據要素治理制度,其中創新數據產權觀念,淡化所有權、強調使用權,聚焦數據使用權流通,創造性提出建立數據資源持有權、數據加工使用權和數據產品經營權“三權分置”的數據產權制度框架。三權分置的產權制度,淡化所有權、強調使用權。
生成式數據的版權問題一直是AI發展的法律限制性因素,隨着馬斯克支持特朗普上臺,向特朗普提議解綁前沿科技的法律限制,會是一變動因素。
數據不夠?
關於數據量(Training Tokens)和模型大小(Parameters)對於模型的影響,OpenAI在2022年發表的論文有過討論:在計算量增加10倍時,模型大小增加5倍,數據大小增加約2倍;而計算量再增加10倍時,模型大小增加25倍,數據大小僅增加4倍。
根據非營利研究機構Epoch AI的最新論文,大語言模型會在2028年耗盡互聯網文本數據。
這裡說的數據僅僅是真實數據,合成or仿真數據將會在AI Infra層詳細講述。
我的觀點如上述章節一致,本質上是算法導致的學習效率低下的問題,不是數據規模問題。
六、AI Infra層
軟件的市場演進規律
在正式進入介紹產業鏈前:我先對齊下大家對軟件行業的規律:
先有一個breakthrough的應用程序,然後這個突破性的應用程序激發了一個創新階段,在這個階段建立基礎設施,使類似的應用程序更容易建立,並且基礎設施使得這些應用程序被消費者廣泛使用【54】。
一家軟件公司的成功,通常需要經歷以下 4 個階段【55】:
1. 由於行業、趨勢、場景的變化,新的需求出現,這個時候有需求(剛性需求)但沒有標準化產品,大型企業尤其是科技公司便在企業內部自建團隊,靠幾名高技術水平開發者從 0 到 1 手動搭建產品和框架,並在後續自主維護。
2. 技術和解決方案在實驗室或企業內部運行一段時間後,開始有人試圖抽象出相對通用的框架和產品,並向市場發佈,有開源產品--營銷、也有閉源產品,1爭奪行業標準(技術)。當用戶購買產品的 ROI 比使用“開源架構+內部自建團隊+維護更新”的方案更高(要有技術開發壁壘)時,2 用戶開始付費(商業模式創新切入)。
3. 隨着需求的增長,越來越多的客戶使用和篩選各類產品,經過一段時間的市場檢驗,最終收斂到 1-2 款產品(成功找到商業化產品的核心應用場景和 Product/Market Fit),行業標準形成。
4. 成爲行業標準的產品和公司將基於現有的技術和產品,提供更多更有價值的功能和服務,提升產品和商業化能力,在商業化方面取得成功,注重防守--全棧解決方案,增加轉換難度。
To C差不多,制勝的目標變成了利用生態截取大量流量,再轉化。
流量的進出順序爲硬件終端(pc、手機等)> 軟件(檢索工具 > 社交軟件 > 其他);所以依託硬件去做流量的轉化有天然的優勢,畢竟流量在前,軟件公司只能聽蘋果or安卓終端公司生態擺佈,著名的例子就是騰訊想通過微信小程序來躲過蘋果商城的蘋果稅,結果被蘋果起訴;當然中國可以沒有蘋果,但不能沒有微信(支付、社交、出行等等的完全生態),唯一軟件打得過硬件的反例。
蘋果公司在2017年推出的應用服務條款,通過虛擬貨幣的打賞,應當被視爲應用內購買,蘋果將從中提取30%的分成,而且必須走蘋果支付渠道。所以大家知道爲什麼國內女主播要求蘋果手機用戶打賞要走微信小程序打賞or其他非蘋硬件了吧。還有ios的遊戲充值也比正常渠道貴。
這也是爲什麼谷歌還自己做了手機等硬件,還有meta扎克伯格瘋狂炒元宇宙,想用vr、眼鏡等穿戴式設備其他硬件範式推翻移動互聯網時代的手機生態,由於光學成像等等原因,很可惜還有很大的距離。
AI Infra產業鏈
以下對 AI 工作流總體可以拆解成四個垂直模塊:數據準備,模型訓練,模型部署和產品整合。
LLM流行前,AI模型通用性較低,項目落地停留在“手工作坊”階段,流程難以統一規範。人工智能已有數十年的發展歷史,尤其是2006年以來以深度學習爲代表的訓練方法的成熟推動第三波發展浪潮。然而,由於傳統的機器學習模型沒有泛化能力,大部分AI應用落地以定製化項目的形式,包括需求、數據、算法設計、訓練評估、部署和運維等階段,其中,數據和訓練評估階段往往需要多次循環,較難形成一套標準化的端到端的流程和解決方案,也由此造成了邊際成本高、重複造輪子等問題【56】。
大規模預訓練模型完成了“從0到1”的技術統一,泛化能力和通用性釋放出“從1到100”的落地需求,且存在相對標準化的流程,衍生出AI Infra投資機會。
總而言之,就是算法的變化導致了infra層的變化:有的工作流不需要了,也有新的工作流,且流程相對標準。
數據準備
數據標註
作用:標註機器學習輸入 (X, y) 中的 y 部分,在一部分目標變量 y 缺失的業務場景爲 AI 模型提供人類先驗知識的輸入。作爲上一代 AI 興起時最旺盛的需求,在計算視覺領域使用場景相對較多【56】。
重要公司:國外:Scale AI(人工數據標註供應商),Snorkel(使用模型對數據進行合成 / 標註)。國內:海天瑞聲等。
商業價值評價:低
LLM無需求,LLM 本身具有很強的自監督屬性,輸入的數據和輸出的數據並不是標準的pair的狀態。
由於OpenAI和LLAMA 2的RLHF(Reinforcement Learning from Human Feedback)強調高質量數據對模型訓練結果影響的表述;且在訓練模型中參與科學家人數和工時最多參與數據反饋。對原來低質量數據標註方法的顛覆,LLM模型不再使用標註數據,而使用人類少量的高質量的反饋。
按照meta 2023年訓練llama2購買3萬條高質量人類反饋*預計市場參與者10家*一年4次訓練模型=2023年美國市場需要120萬條,再*10美元的單價=最多1200萬美元市場規模。
競爭形式預測:沒有大的改變,業務變高端了,邀請專家來反饋,提高單價增值;價值較低,資源壁壘隨時可破。大模型公司自己都可以做,沒必要外包。
特徵倉庫
作用:管理機器學習輸入 (X, y) 中的 X 部分,離線特徵工程,在訓練時更靈活地調整需要使用的特徵組合和加工方式;在線實時預測,將線上的數據流靈活地提供給 model serving;和線上數據監控,保障模型使用的數據分佈與質量的安全性【56】。
在 LLM 大語言模型的場景下,訓練和推理數據不以這種形式進行組織,故 Feature Store 在 LLMOps 下沒有使用前景。
合成數據
作用:真實數據的補充。做真實數據的“平替”,用AIGC反哺AI。一項來自Epoch AI Research團隊的研究預測存量的高質量語言數據將在2026年耗盡,低質量的語言和圖像數據存量也將在未來的數十年間枯竭。
面對潛在的數據瓶頸,合成數據即運用計算機模擬生成的人造數據,提供了一種成本低、具有多樣性、規避了潛在隱私安全風險的解決方法,生成式AI的逐漸成熟進一步提供技術支撐。
比如,自然語言修改圖片的Instruct-Pix2Pix模型在訓練的時候就用到GPT3和Stable Diffusion來合成需要的提示詞和圖像的配對數據集;Amazon也利用合成數據來訓練智能助手Alexa,以避免用戶隱私問題。合成數據市場參與者較多,獨立公司/項目如gretel、MOSTLY AI、datagen、hazy等,數據標註廠商如Scale亦推出相關產品,此外主流科技公司英偉達、微軟、亞馬遜等均有不同場景的嘗試。
圖:Instruct-Pix2Pix藉助GPT-3、Stable Diffusion生成指令-圖像訓練數據集
商業價值評價:中
那麼在LLM裡,合成數據真的有效嘛?答案是否定的,合成數據提取了樣本的特徵,並進行相似性的替換,特徵仍然無變化;且數據本身會和真實數據混合,導致真實的數據特徵漂移,噪聲變多,大模型過擬合。
但在以強化學習和模仿學習爲主自動駕駛算法領域一級具身領域(神經網絡端到端的FSD),算法無法覆蓋到未曾見過的場景--強化學習的缺點,也就是所謂的coner case,這時候使用合成數據,在仿真平臺中訓練模型,確實可以提升其在coner case的性能,但仍然有限。
目前英偉達的sim saac等平臺也可以做到仿真生成環境,解決coner case的市場規模較小再加上汽車企業的賬期較長8-12個月,所以商業價值較中。
國內公司有光輪智能、智平方、Hillbot和銀河通用。
查詢工具&數據科學工具及平臺
作用:廣義的數據科學涵蓋利用各類工具、算法理解數據蘊藏含義的全過程,機器學習可以視爲其中的一種方式和手段;狹義的數據科學也可以僅指代機器學習的前置步驟,包括準備、預處理數據並進行探索性分析等【56】。
一般在開源框架上自研,無商業價值。
模型訓練
模型庫
作用:機器學習屆的 Github,以更 AI-native 的方式組織 AI 開源社區,爲 AI 研發提供安卓式的環境【56】。
重要公司:典型代表廠商包括海外的Hugging Face、Replicate,國內關注Gitee(開源中國推出的代碼託管平臺)和ModelScope(阿里達摩院推出的AI開源模型社區)OpenCSG等項目。
商業價值評價:低
佔據着數據科學工作流的入口位置,用戶數量較大;但其開源屬性增大了其商業化難度,目前變現手段不多。
傳統 ML 模型規模小,訓練成本低,基本不依賴 Model Hub;大語言模型場景下許多科學家和工程師通過 Model Hub 調用開源的預訓練模型和參數,來減少自己從頭訓練和定製化模型的成本。
小客戶開發demo的場景更多!但做自己的模型肯定是脫離模型庫的,可以理解爲交流模型的論壇。已有龍頭,且商業化機會對於專業開發客戶小,僅作爲營銷平臺(廣告盈利)和做demo。
大模型訓練框架
作用:AI 模型訓練與推理的核心框架,使模型能夠高效的實現計算。以深度學習框架爲例,其內嵌實現了以下事情:可以繞開手寫 CUDA 代碼,直接簡單地使用 GPU 搭建模型。這使得深度學習框架門檻變低很多,只需要定義神經網絡的結構與損失函數,即可跑通一個基本的模型。可以理解爲深度學習的開發軟件。
重要產品:Tensorflow (Google), PyTorch (Meta), Jax。
Tensorflow 先發優勢明顯,早期佔據了業界的主流。但其版本管理做得不好,易用性也略遜於 PyTorch,在學界被 PyTorch 後發超越。目前在業界使用 PyTorch 的公司也在變多,但由於遷移成本高,Tensorflow 也有一定公司在使用,況且 Tensorflow 是使用谷歌開發的 TPU 的主要選擇。Paddlepaddle(百度)、Mindspore(華爲)。大公司掌握,爲其深度學習的生態之一,免費使用。
商業潛力:低
儘管這一領域沒有顯著的商業潛力,但還是在這裡介紹一下這類框架,因爲這是當前所有 AI 模型的基石,有着很強的生態意義。
訓練和推理階段的計算優化
作用:通過芯片層面或者算法層面優化開發成本和推理計算成本
由於LLM的算法的改變,所有之前的優化辦法基本失效。在這裡對LLM算法和計算機體系的全面的洞悉是稀缺性的,具有非常高的壁壘(又有大規模語言模型的訓練經驗,又有對計算機底層系統-存儲、計算等的瞭解的人非常少)。
同時,降低模型的訓練和推理成本,是大模型企業競爭的重點,目前價格和成本昂貴是導致大模型沒有被大規模使用的頭號問題;不管是大模型公司,還是使用大模型的公司付費意願強,客戶覆蓋衆多。
市場規模上來說:訓練和推理的計算成本是大模型企業的最高佔比成本。且推理優化的上限要比訓練優化的上限更高,具體數字已在算力層表述。無論是採取訂閱制還是API的盈利形式,市場規模都將是百億甚至千億美金的級別。
商業潛力:極高
目前主要是兩種技術路線進行優化:兩種一種是硬件層面的優化,一種是直接在AI算法上優化。但國內企業仍需要突破一體機的商業模式。
目前國內硬件優化的公司爲主,並且率先商業化,但在在硬件層面上,技術可創造的 margin(提升空間)不大了。比如硬件利用率,理論上最高是 60% 多,現在大家用英偉達的系統和軟件已能做到 40%~50%,可提高的空間就是百分之十幾。並且GPU優化技術面臨着嚴重的同質化問題,各廠商之間的性能差異並不顯著。
潞晨科技:
潞晨的產品重點在於訓練與推理一體化解決方案,尤其側重於訓練領域,在推理技術路線上,潞晨仍然主要集中在GPU優化方面。
硅基流動:
硅基流動專注於MaaS模式,通過雲端向用戶提供Token服務。這一模式要求其具備廣泛的模型兼容能力,以支持多種不同的模型和技術手段,並結合雲計算管理等一系列增值服務。
清昴智能:
清昴團隊源自清華大學計算機系媒體與網絡實驗室,專注於構建模型部署平臺,在底層不同GPU芯片的適配及模型部署服務方面積累了豐富的工程實踐經驗。團隊最近主要集中於與部署相關的MLOps算子以及對國產芯片兼容支持的算子開發。
無問芯穹:
無問團隊主要成員來源於清華大學電子工程系。在技術路線的選擇上,該團隊主要聚焦於GPU利用率和通信的優化以及計算機集成系統優化。
總體而言,純粹依賴於GPU優化的技術方案面臨嚴重的同質化挑戰,現有的開源框架已經達到了較高的性能,使得各廠商在性能表現上的差異化優勢不再顯著。
算法上優化的是沒有上限的,潛力最高。
以存換算的推理算法優化+全系統協同優化的趨境科技是該行業的黑馬:由清華系MADsys高性能計算機實驗室團隊組成。
利用推理階段的KVcache緩存,存儲多次提問的相似的問題和答案,避免重複計算,特別是未來的CoT的長推理場景,需要重複推理,成本可以直線下降。
趨境科技創新性地設計了“融合推理(Fusion Attention)”思路來利用存儲空間,即便是面對全新的問題也可以從歷史相關信息中提取可複用的部分內容,與現場信息進行在線融合計算。這一技術顯著提升了可複用的歷史計算結果,進而降低了計算量。
尤其在RAG場景中,“以存換算”能夠降低把響應延遲降低20倍,性能提升10倍。
在此基礎上,趨境科技首創的“全系統異構協同”架構設計也成爲重要技術支撐。該架構是首個允許在單GPU卡上支持1Million超長上下文的推理框架,以及首個單GPU上運行2000億參數MoE超大模型等等。
目前,趨境科技已聯合清華大學一起將異構協同推理框架的個人版,名爲KTransformers的框架在GitHub開源,並在Hugging Face等開源社區引起廣泛關注和討論。行業合作伙伴也對此興趣頗高,已有多家知名大模型公司主動拋出橄欖枝,與其共同發起大模型推理相關的項目建設。
模型部署
模型安全和監控
作用:保障線上模型可用性和可觀測性,實時保持對模型輸出結果和指標的監控。未來會是模型可解釋性和安全的重要領域【56】。
重要公司:Fiddler, Arize, Arthur, Whylab。
商業價值評價:目前低
LLMOps 需求:增加,LLM 語境下的 AI 安全將成爲重要命題。
LLM 大語言模型的性質比傳統 ML 模型更爲複雜,有包括 Prompt Engineering 等激活和微調方法存在。爲了保障安全性和可解釋性,隨着 LLM 在軟件中的深入落地,對模型的監控和後續管理會有着更高的要求。目前已經有新型公司,如 HumanLoop 在專注這個領域,之前的公司中 Whylab 也在做相應的嘗試。
目前,大模型公司本身並不注重安全性,還是在追求性能上,安全問題是否會被大模型公司外包?目前以RLHF爲主要對齊手段上,確實不需要外部公司參與模型微調。
模型部署和Serving
作用:模型部署是指把訓練好的模型在特定環境中運行的過程。過程中需要最大化資源利用效率,且保證模型部署上線後在用戶使用時有優異的性能。出色的部署工具能夠解決模型框架兼容性差和模型運行速度慢這兩大問題。具體使用場景可以參考下圖:
重要公司:BentoML, OctoML【56】。
LLMOps 需求:增加
商業價值評價:目前低
基於 AI 的應用和產品會越來越多,優秀的模型部署能降低模型的推理成本並提高性能,模型部署和 serving 會在 LLMOps 重要的需求,且可能會衍生出模型剪枝、蒸餾等能壓縮模型冗餘的部署 serving 需求。但都是大模型公司本身在做。
二次開發
開發者工具
作用:爲開發出agent工具,提供調用各種細分工具的平臺,產出智力成果。
Agent作爲最終的LLM產品形態,屬於大模型的智能能力的關鍵一部分,一定會研發,且難度非常小。一方面LLM會將開發者和c端的流量卡在自己平臺上,一定會提供不同程度的自定義開發平臺(GPT2023年末已經推出agent開發工具商店以及GPTs:無代碼的agent應用開發)。
商業價值取決於大模型公司是否會向後整合。
目前有兩種商業模式:
1 提供開發工具的開發者平臺
國內(Fabarta),模型開發者工具Langchain,Together AI。
2 無代碼的agent開發
公司有CoLingo、AutoAgents.ai、Babel、Dify.AI。
向量數據庫
作用:非結構化數據庫,儲存的數據形式爲向量 embedding,在推薦系統、搜索引擎、異常檢測、LLM、多模態等場景下都是數據輸出、搜索、召回的重要形態【56】。
重要公司:Pinecone, Zilliz;國內英飛流/InfiniFlow等
LLM需求:增加,但商業潛力:較低
在 LLM 語境下,向量搜索和查詢會在軟件中扮演更重要的作用,而向量數據庫則會成爲這一方向中最重要的基礎設施之一。
首先,向量數據庫比較核心的技術就是索引(FLAT、HNSW、IVF)、相似度計算(餘弦相似)、Embedding(將各種信息轉化成向量,降低信息複雜性);這些技術在大模型火之前就有了,時至今日本質上沒有顯著變化。
其次,賽道進入門檻比較低。無論是大模型提供方,還是傳統數據庫廠商都可以轉型進入這部分業務;這也就導致競爭會變得非常激烈。對於初創型公司來說,無論是拼財力還是拼客戶都完全沒有優勢。
由於其降低成本和實現關鍵agent檢索能力,模型大廠還有云計算廠商主動納入其能力。
七、大模型層
大模型層,無論海外還是中國,競爭格局非常統一的都是初創公司和互聯網企業。
開源 vs 閉源
在生成式 AI 向前推進的過程中,圍牆花園依然存在。OpenAI 並不 open 地僅開放商業化付費 API 作爲 GPT-3 的使用方式,谷歌的大模型也並未開源。
下圖展示了開源社區追趕 AI 模型的時間線,可以看到技術追趕速度正在逐漸變快。那麼這個趨勢是否會持續呢?如果差距持續縮小或較爲穩定,AI 模型開發可能成爲 iOS vs 安卓的格局;而還有另一種可能,則是差距逐漸放大,AI 研究所專業化地研發大模型,開源團隊主要做中小模型的工作。這一判斷的關鍵因素,會是各團隊對 GPT 模仿與超越的進度。
但總歸而言:閉源比開源好!且公司一旦做出效果,也會閉源!
大公司採取完全閉源或者部分開源的方式(META開源-爲了集中智慧,更好的優化模型;但是訓練數據並不開放和輸出限制,並不符合最新的開源標準)
1 閉源有數據飛輪,將模型訓練的更好
2 開源的盈利模式,只能提供非標準的開發服務,沒有規模效應
3 開源發展慢於閉源,但商業化的競爭已然開始,以開源模型爲基礎的軟件,性能和商業化落後
4 軟件類的歷史,都是開源先,再做閉源產品,天下沒有免費的午餐
開源沒有但使用者多,生態建立快,使用者還可根據業務需求自行增減功能或進行模型迭代,但是企業開發成本過高,無法及時收回成本,後面只能做爲他人開發模型的工作,不具備規模經濟優勢,註定盈利模式走不通,但可以做營銷。
對於下游的應用層開發者來說:
模型選擇的問題,企業可以先用好的開源模型開發,再等待閉源模型技術發展突破(也可以同時開發,比較效果),再跟上(大模型層公司一定會提供標準化的工具)。
LLM
LLM的大模型公司是行業裡主導玩家,整個產業都會由於該行業的競爭行爲而變化。
從公開測試來看,中國大模型與國外模型仍有不小的差距。不過在scaling law的邊際效應減小的情況下,仍然可以在最多1年內追上。
海外
直接網站MAU數據說話,Chatgpt和借用OpenAI技術的微軟的Bing斷崖領先。還有app數據,考慮到大家使用都是通過網站入口進入,app的數據影響較少。
海外的商業化和技術進展整體快於國內市場,有非常好的借鑑意義。
具有絕對優勢地位!利用技術優勢的時間差,正在快速商業化和防守!
團隊:掏空硅谷人才的頂尖公司,但是由於衆所周知的不再“open”和改變企業性質爲盈利組織後,一次團隊“政變後”,關鍵科學家伊利亞以及安全團隊的出走,企業後續的頂層技術設計能力堪憂。CEO奧特曼是美國孵化器YC(國內奇績創壇的前身)的總裁。
事實上,近期OpenAI的人事變動頗爲頻繁,大量關鍵科研人才流動。此前在今年5月,OpenAI超級對齊團隊負責人Jan Leike以及聯合創始人、前首席科學家Ilya Sutskever在同一天宣佈離職。此外有消息顯示,OpenAI另一位聯合創始人Andrej Karpathy也已在今年2月離職,並且去年加入該公司的產品負責人Peter Deng也已離職。
隨後在8月初,OpenAI聯合創始人John Schulman宣佈離職,並表示將加入AI初創公司Anthropic。彼時OpenAI公司發言人曾透露,總裁Greg Brockman將休假至今年年底,並且Greg Brockman本人表示這是其自9年前創立OpenAI以來第一次放鬆。
今年9月OpenAI首席技術官Mira Murati也宣佈離職,並表示,“經過深思熟慮,我做出了離開OpenAI這一艱難決定。離開這個深愛的地方從來沒有一個理想的時間,但感覺此刻就是最好的選擇”。
本月初OpenAI旗下Sora AI視頻生成項目負責人Tim Brooks宣佈離職,加入OpenAI的主要競爭對手谷歌DeepMind。近日,OpenAI高級研發人員、OpenAI o1推理模型負責人Luke Metz宣佈即將從OpenAI離職。
目前OpenAI的招聘重點已經從基礎研究轉向產品開發和應用領域。
戰略方向:根據開發者大會,可以確認OpenAI重點將在繼續開發多模態大模型(尋找下一代的Scaling Law以及Cot等等)和尋找商業化(1爲基於gpt的開發者提供全棧的開發工具和方案--免代碼的GPTs和Assitant 2運營應用軟件的平臺-Store 3To C的搜索引擎以及Canvas工作臺);向後向前整合關鍵能力。特別是C端,OpenAI一定會去嘗試去做大市場的生意。
To C類(獲取流量):提供Chatgpt,GPTs agent和GPT-store,奧特曼長期如果想要推翻谷歌,成爲新的檢索入口,必須要找到新商業模式和生態!(特別是找到和廣告商收費,但又不破壞C端客戶使用體驗的商業模式)。
OpenAI確實在產品化上有所不足,目前OpenAI的招聘重點已經從基礎研究轉向產品開發和應用領域。此前在2021年,該公司發佈的招聘職位中有23%屬於一般研究類職位,但在2024年這個比例已降至4.4%。
對於B端(ISV生態工具棧):短期內參考蘋果生態(廣泛吸引開發團隊入住),市場上對C產品收取高額月費享受ai服務,可以短期收錢,但是目前來看大模型競爭隨時趕上,賺錢的服務也將會被垂類公司賺走,如何獲取和留存大流量;提供統一模型微調和訓練工具。爲了應對谷歌等大公司整體生態的競爭,必須要走出商業差異化!
與互聯網大廠合作:微軟佔有49%的股份,引用至自己的終端(copolit agent--LLM版搜索引擎救活了微軟無人問津的瀏覽器edge--兩年內從8%的市場份額提升至15%!直接挑戰谷歌chrome),同時也投資了另一家大模型公司,大公司都會使用大模型來對其企業產品進行agent化和雲服務的協同工作!微軟同時投資mistral和引入inflection ai的ceo,說明對OpenAI的掌控不強,所以才做的多手準備。BTW,微軟雲計算的azure上的GPT的api費用要低於OpenAI官網的價格。
對於OpenAI來說,一方面的投資有算力的加成,快速訓練,一方面微軟也對奧特曼的支持導致了伊利亞想把奧特曼踢出團隊的失敗。另外根據協議,OpenAI一旦開發出AGI(第五級-AI可以完成一個組織的工作),微軟就將失去OpenAI的技術。
總而言之,OpenAI拿算力、數據;微軟拿到OpenAI的技術作出產品,賦能業務。
創始人達里奧是一個技術天才,在OpenAI的5年間,他先後帶領團隊開發了OpenAI的早期產品GPT-2和GPT-3,成爲首批記錄人工智能規模定律和規模化的技術大牛。
正是這段經歷,達里奧逐漸意識到AI可能比想象中強大,它帶來的安全問題也比想象中更嚴峻,然而,OpenAI似乎並不能解決他的顧慮。2020年6月,GPT-3問世,半年後他與妹妹丹妮拉決定一同辭職。
OpenAI核心團隊出來創業,Anthropic 已經和 亞馬遜、Google、Salesforce 達成了戰略合作,使用 Google 提供的雲服務,並且集成到 Slack 中;Anthropic也表示會進一步擴大與AWS的合作,提出將“從芯片到軟件的技術基礎,共同推動下一代人工智能研究和開發。”其中就包括合作開發AI芯片,以及AWS業務的進一步滲透。
Anthropic 的成功源於其獨特的技術路線和商業策略。首先,Claude 3.5 Sonnet 模型在性能上實現了質的飛躍。根據 Anthropic 官方的數據,該模型在研究生水平推理能力(GPQA)、本科水平知識(MMLU)和編碼能力(HumanEval)等多個基準測試中均表現出色,甚至超越了其前身 Claude 3 Opus。
基於Anthropic發佈了一項革命性的技術——模型上下文協議(Model Context Protocol,MCP)目標是實現LLM應用程序與外部數據源和工具之間的無縫集成。
因爲允許LLM訪問和利用外部資源,它的功能性和實用性都會大大增強。解決LLM數據孤島的問題。使得開發者更容易開發自己的產品。
無論是構建AI驅動的IDE、聊天界面,還是創建自定義的AI工作流,MCP都提供了一種標準化的方式,來連接LLM與它們所需的上下文。
Claude 3.5 Sonnet 引入了革命性的"計算機使用"功能。這項功能允許 AI 模型像人類一樣與計算機圖形用戶界面交互,包括解釋屏幕圖像、移動鼠標指針、點擊按鈕,甚至通過虛擬鍵盤輸入文本。這種創新大大拓展了 AI 的應用範圍,爲企業用戶提供了前所未有的靈活性。
此外,Anthropic 還推出了"Artifacts"功能,允許用戶直接在聊天界面中與模型輸出進行交互和操作。這不僅提高了生產效率,還促進了人機協作的創新。
Anthropic 的成功也得益於其在安全性和道德方面的重視。公司率先提出了"憲法 AI"的概念,爲其 AI 模型制定了一套道德準則和行爲指南。這種做法不僅贏得了用戶的信任,也爲整個行業樹立了標杆。模型與人類道德強對齊。
Mistral AI成立於法國和2023年4月,由DeepMind和Meta的前科學家共同組建,專注於開源模型及企業級服務。公司成立之初,就獲得了英偉達、微軟和Salesforce等科技巨頭的投資。Mistral AI被視爲OpenAI在歐洲的主要競爭對手,據該公司介紹,其開源模型Mixtral 8x22B是市面上參數規模第二大的開源模型,僅次於馬斯克的Grok-1。
不過,在與科技巨頭的競爭中,Mistral AI面臨很大的挑戰。今年前三個月,Meta、Google和微軟在數據中心建設和其他基礎設施的投資總額超過了320億美元。不過,Mistral AI已與微軟建立了長期合作伙伴關係,利用Azure AI的超級計算基礎設施訓練模型,並共同爲客戶提供Mistral AI的模型服務。
還有meta、谷歌、亞馬遜、推特等自研的模型!谷歌的Gemini和meta的Llama模型,性能都非常不錯。且有流量的優勢,agent產品化後搭載在自己硬件如谷歌手機,軟件如Meta的app上。
在基礎的算力和數據上,初創公司遠遠不如互聯網企業,唯獨在算法層面,或者更具體的說:AI算法認知領先,在智能工程上(數據、計算機系統)有一定的開發領先知識和經驗。預計和大廠們有個最多8個月的技術優勢。然而在scaling law大概率失效下,這個時間將會被快速拉短。
本身大廠們就是算法領域知識產出的主要來源(推薦算法、cv都是互聯網廠商的深度學習的拿手好戲,適應新算法很快),本身的transformer算法也是由谷歌提出,且互聯網大廠的業務就是cash cow,不缺利潤,後期追上很快。只是現在爲了市場的競爭,快速合作,ai化產品賦能業務增長,實際上都在自己做模型。
在這種博弈下,初創公司只能不斷創造壁壘,保持技術上的領先的同時,找到一條可以挑戰互聯網企業的商業化路徑(至少這裡還有無限的可能),否則會被互聯網初期免費的策略競爭(基本上互聯網企業的模型都免費,或者api價格遠低於初創企業,Llama都直接開源的)。所以初創企業和終端應用層的界限將會十分模糊,大模型企業除了提供MAAS的api等服務外,也會提供豐富的產品給到用戶。
如果無法成功商業化,那麼初創企業基本上就會和上一時代的CV公司一樣:商湯、曠世依靠給互聯網大廠賣人臉識別api起家,技術成熟後,同質化競爭,單次識別人臉的單價從幾毛錢直接降到幾釐錢,甚至更低;然後開始尋找二次增長曲線,各種行業(自動駕駛、醫療、to c等等),搞渠道,做非標總包定製化,毛利下降。。。。。
總而言之,初創企業必須找到自己的有壁壘的盈利池,特別是to c領域作爲大頭,拿到互聯網算力和投資後,把握好關係避免過於深入參與業務,要充滿想象力和勇敢挑戰互聯網大廠的業務,否則到頭來就是個大廠外包研發團隊,有業務能量和技術的等待併購or直接下牌桌。
那麼這次的LLM浪潮到底是互聯網大廠們的流量競爭的延續還是新時代的降臨呢?
國內
智譜ai:同時投資生數科技(美術類)和冪律智能(法律類),補充能力和應用層,商業化最成熟,主要面向to b;有語音、文本和圖像,有開發平臺;智譜 AI 已擁有超2000家生態合作伙伴、超1000個大模型規模化應用,另有200多家企業跟智譜AI進行了深度共創。
近期,在11月末智譜推出自己手機版的AutoGLM之前--可用語言操控手機的agent(LUI),下面應用層,會詳細講述,他的股東螞蟻集團的著名app-支付寶,在9月份早早就推出了“支小寶”,人們可以和他對話,在支付寶上進行訂外賣、訂機票等等操作。
月之暗面:to c(主要定位)商業化最好:Kimi智能助手在2024年1月的訪問量達142萬,在大模型創業公司的“AI ChatBots”產品中居於首位,月環比增長率爲94.1%,增長速度也在大模型創業公司中排名第一;技術優勢,250ktokens的長文本輸入,主打無損記憶;但只有文字,to c入手;最近又有了CoT能力,數字推理能力加強不少。
上述榜單爲app使用榜單,非網頁版,更符合大家對模型和應用層使用的市場認知。豆包的使用是斷崖式的,和自己app業務的賦能,飛書等app內置豆包免費使用,加上宣發和教育板塊的擴張。
字節的豆包、360、華爲、百度、阿里、美團等等都在出自己的模型。這裡面字節和360做的商業化和模型成果結合的不錯,流量好。這裡要說一句,幻方的deepssek模型通過優化注意力機制和量化的大量GPU(除了字節外,最大的英偉達算力方了),獲得了非常好的效果,性能位居世界前列,但不商業化,不賺錢,只開源模型,模型的競爭實在過於強烈。
國內國外的競爭態勢幾乎一樣。不再贅述。
八、應用層——軟件
AI應用軟件綜述
目前應用層的問題在於,大家都是嘗試在用,後續使用次數不多,無法利用好大模型的特性與需求貼合。
所以應用層的成功的關鍵是基於場景的深度理解,做出複用率高的產品!所以MAU、復購率等爲關鍵指標。還是得回到應用場景的關鍵詞:
剛需 長期 高頻
應用層公司的模型選擇路徑
1 利用已有的閉源大模型用自己的數據微調模型:(但要找到合適的盈利模式,抵消流量費用)
訓練費用和調用費用:OpenAI對訓練和api調用收費。這通常基於使用的計算資源量和使用的模型。
2 自研
3 開源大模型再訓練
基本上應用層的公司還是微調模型,不自研,也就是所謂的“套殼”,所以他們的壁壘就在於對場景和LLM的理解從而開發出PMF的產品,而技術層面上來說,所有套殼公司要做的事情就是提示詞工程-通過LLM偏好的語言習慣,引導LLM最優化的輸出結果。
To B & To G--企業服務
海外龍頭公司:Saleforce、SAP、Zoom、Adobe、雲服務公司等
國內:釘釘、企業微信、飛書、金蝶、用友等
針對大模型的已有的創造和歸納推理能力,可以部分替代美術創意、文字推理歸納。
(一)信息管理類
大型企業如 Salesforce、SAP 和 Workday 也推出自己的 AI Agent 產品。其中,Sales Agent 是目前 AI Agent 主要落地和商業化場景之一。硅谷 VC 圍繞 Sales Agent 概念投資了很多 club deal,如完成了 5000 萬美元的 B 輪融資,估值 3.5 億美元的 AI SDR (Sales Development Representative,銷售開發代表) 11X,Greenoaks Capital 領投新一輪的 Sierra 估值也達到了 40 億美金【57】。
與此同時,Agent 公司從按 seats 數量收費的 SaaS 定價模式轉向基於結果定價,帶來了更大的市場空間和想象力。
目前的 Sales Agent Startup 大多專注於替代或優化銷售流程中的某些環節。
客服市場從上世紀 50 年代發展到今天,主要經歷了四個階段【58】:
傳統電話客服(2000 年以前)—多渠道客服(2000 年-2010 年)—雲客服(2010 年-2015 年)—AI 客服(2015年至今)。但是即使發展到今天,客服市場競爭格局仍然十分分散。在 LLM 之前,AI 客服依賴於自然語言理解(NLU) 和機器學習,不同的行業需要不同的語料庫,客服公司通常僅能在一至兩個垂直行業做深,難Scale。
第四階段的 AI 客服也叫 “對話式 AI(Conversational AI)”,國際主要玩家包括 Kore.ai、Amelia 等。
早期基於 Rule-Base 的 Chatbot 對答是可控、可預測、可重複的,但對話缺乏“人情味”,並且通常不保留已發生的響應,存在重複和循環對話的風險。傳統 Chatbot 架構和工具非常成熟,主要包括四個部分:NLU 自然語言理解,對話流程管理(對話流和響應消息,基於固定和硬編碼邏輯)、信息抽象(預定每個對話的機器人響應)、知識庫檢索(知識庫和語義相似性搜索)。傳統 Chatbot 唯一基於機器學習和 AI 模型的組件是 NLU 組件,負責根據模型預測意圖和實體。這種 NLU 引擎的優點是:有衆多開源模型、佔用空間小/無需過多資源、存在大量的命名實體語料庫、有大量垂直行業的數據。後來的 Chatbot 採用更復雜的算法,包括自然語言處理(NLP)和機器學習,來提供動態和上下文相關的交互,從而解決早期基於模板的方法的缺點。
Chatbot 發展到後期出現了 Voicebot。Voicebot 的基本方程式是:Voicebot = ASR(Automatic Speech Recognition) + Chatbot + TTS(Text To Speech)。這些變化增加了複雜性,提供更好的對話效果、更長的對話時間和更多的對話輪次,以及更復雜的對話元素(如自我糾正、背景噪音等)。然而,Voicebot 出現的同時也帶來了一系列挑戰:有延遲問題、需要更復雜的流程、需要加翻譯層、容易出現對話離題、用戶打斷對話難以解決等。
因此,開發者依然在渴望一個靈活且真正智能的對話管理系統。LLM 的出現從開發到運行都顛覆了 Chatbot IDE 生態系統:不僅加速了 Chatbot 的開發設計,大大提高了Scalability;而且在對話運行中可以實現上下文交互、靈活且智能的回覆。但缺點是穩定性、可預測性較差,以及在某種程度上的可重複性弱。
根據銷售工作流,可以將 AI 客服分爲幾類:
1)營銷類外呼:售前場景因爲對於模型的理解和智能能力要求較低,是目前比較好的落地場景。Voice agent可以帶來更自然的對話體驗,同時能夠結合分析歷史通話數據,實現營銷轉化的提高。如果遇到太難的問題,LLM 也可以檢測後發給普通的客服。
2)銷售中:目前LLM還比較少的被應用到直面leads,因爲受能力限制,失敗了損失過大。但被充分應用於客服培訓中,一方面節省了因爲電銷頻繁離職導致的過多培訓時間成本;另一方面可以做到知識庫實時對齊,成爲電銷的語音 copilot。
3)投訴/售後服務、客戶回訪(佔比50%):AI 可以幫助客服收集客戶投訴,解決簡單的售後服務問題(不一定要使用LLM)。同時可以進行大規模的客戶回訪,也開始被企業廣泛的採用。
根據 Morgan Stanley 的報告,目前全球大約有 1700 萬名客服代理人員,代表着大約 2000 億美元的全球勞動力市場。隨着多渠道協調響應的需求增加(例如電子郵件、社交媒體、聊天),這個市場從傳統的客服中心向雲服務轉型。根據 Morgan Stanley 估計,目前高達 50 % 的客服互動都屬於簡單直接的類型(例如密碼重置、包裹查詢、需要退貨),隨着 AI 解決方案的改進,這些互動未來可能不需要人工客服的參與。但是考慮到客戶強烈希望與真人客服交談的偏好,在保守情況下,未來 5 年內,可由 AI 處理的客服業務將佔 10-20 %,並且這一比例預期將增長。因此,Morgan Stanley 認爲在未來 5 年內,Contact Center 市場(包括 CCaaS 和 對話式 AI )2027 年市場規模可達約 260 億美元。
Sales AI 領域非常Crowded,主要競爭對手可分爲三大類:大型公司的銷售自動化產品、同類 Gen AI 初創公司、以及上一代 AI 銷售軟件。
垂直行業的語料庫和客戶資源在客服 NLU 時代是玩家的競爭壁壘(數據、行業認知和客戶資源),所以客戶在選擇供應商時更看重供應商在垂直行業的經驗,因此截至目前 AI 客服市場格局仍然較分散。根據專家訪談,AI 客服市場未來很可能有 20-30 位玩家同時留在場上,重要玩家的收入體量大約可達到 10-30 億美元。假設 LLM 落地成熟,考慮到 LLM 的通用性,市場格局有可能由分散變爲更加集中,更利好頭部公司。
衆所周知的原因-中國市場的暫未接受訂閱制導致軟件公司無法像國外企業一樣,獲得高額的收入。但這也是商業進程問題,美國經歷了軟硬件一體機的IBM壟斷,到Oracle等軟硬分離的訂閱制挑戰,再到目前大模型的API-用多少買多少;每次盈利模式背後都是市場受夠了被生產者壟斷的剩餘剝削,選擇了更加平等的盈利模式;中國市場還需要時間。
所以即使收入增長很快,國內企業服務目前在融資低谷(大家更希望看到併購整合,只爲活出資本寒冬)。但是原有的AI客服公司明顯在新浪潮下,具有更大的先發優勢:技術上-只需微調模型;但有大量的數據和場景理解;商業上有固定的渠道客戶,新的盈利模式帶來進行溢價的升級。期待商業模式的轉折,重新將軟件類估值擡回應有的水平。
真正到了落地階段客戶仍更多采用傳統機器學習/NLP 的解決方案(客戶有定製化和垂直行業解決方案的需求,LLM 對垂直行業的理解和準確性反而不如傳統方案),需要限制LLM的幻覺。需要因此目前主要是成立年限較長、有一定行業經驗和客戶積累的傳統公司受益。但傳統方案基於關鍵詞進行回答,靈活度較差,用戶體驗也不夠真實,因此該情況有可能僅是過渡階段。
國內公司有:句子互動、斑頭雁、追一科技、百應科技、Stepone等
根據 ReportLinker 預測,2028 年,全球企業搜索市場規模將達到$6.9B,2022-2028年 CAGR 爲 8.3%【59】。
供需:企業搜索產品的目標用戶主要爲知識工作者,企業客戶覆蓋大、中、小型公司,但以大型企業和中等規模公司爲主,因爲隨着企業越來越龐大,積累的結構化、非結構化數據越來越多,員工與員工之間溝通也越來越低效,因此企業越大對企業搜索的需求就越大。
海外企業搜索大致經歷了三個階段:
1. 第一階段是基於關鍵詞的搜索,用戶需要輸入關鍵詞或關鍵詞組合進行搜索;
2. 第二階段是基於語義的搜索,用戶可以輸入自然語言完成搜索,且搜索的相關性和準確性和第一階段相比有很大提升。
前面兩個階段的共同特點是,均爲用戶輸入關鍵詞或自然語言,搜索引擎根據相關性對搜索結果進行排序,且搜索結果爲網站;
3.第三階段,也就是現在,搜索出現了新的玩法,ChatGPT 或 Bard 等搜索的結果不再是一條條網站,而是直接提供問題的答案。Glean 屬於比較積極擁抱搜索行業的變化的玩家,技術上同時提供語義搜索和關鍵詞搜索的能力,產品上同時提供答案生成和網頁排序兩種形式。
企業搜索的需求非常明顯和穩定,因此該賽道一直比較擁擠,主要玩家包括微軟、Google、Amazon、IBM、Oracle 等大型科技企業,以及專注做企業搜索的公司,如 Coveo、Lucidworks、Glean、Mindbreeze 等,這其中有像 Glean 這樣新成立的公司,也有像 Coveo 這樣已經成立十幾年的公司。
與企業服務公司產品爲互補品,可拆分,客戶離不開原有的企業服務產品,且數據均在原公司,企業檢索爲增值服務,可短時間內自研。
客戶:Glean 早期將科技公司視爲目標客戶,後來更聚焦於成長期科技公司,這些公司的員工數量通常是 500-2,000 人,公司處於高速發展之中,願意嘗試新事物且快速行動。
技術:Glean 利用多維方法將矢量搜索、傳統關鍵字搜索和個性化結合到了一個混合搜索系統中,從而提高了搜索的相關性和準確性。
核心功能是搜索;亮點是個性化和跨應用。
商業價值:Glean 的跨應用搜索相當於在所有 SaaS 產品之上架了一層,用戶不需要再逐一打開 SaaS 應用,在 Glean 上就可以查到企業數據,並完成部分高頻工作;流量進入入口,並且還能直接有生產力,目前最多的還是員工入職場景(培養使用習慣!)。
商業模式:純 to B 的模式,未向個人用戶開放。Glean 通常爲企業提供兩種定價模型,一是 Per-Seat 的定價模型,每個 Seat 每月 100 美金以內;二是針對企業級解決方案的個性化定價模型。
競爭優勢:1易用性(鏈接多個SaaS合作),冷啓動快(3天)2搜索能力的數據飛輪,形成個性化 3員工的網絡效應。
但是無法沉澱業務數據,數據都在SaaS,有搜索數據沉澱,提供企服的公司一般也提供(併購邏輯),國外使用SaaS較多,所以需要企業搜索來使其串聯,不像國內統一化。
未來的期待:想辦法有一定的數據沉澱,未來要成爲中心平臺,需要再多做一些高價值工作替代or形成行業工作流的替代,讓使用者繼續使用。
國內
主要是大模型層公司在做,一種是幫助企業員工進行企業內部知識搜索和總結-私有化部署(項目制,商業潛力弱);一種是ERP公司使用大模型進行搜索並進行SaaS調用。
關注數據獲取留存以及如何商業化,是否考慮垂直行業工作流的agent化!泛化能力不強,先抓住垂直客戶的高價值需求,先商業化。感覺業務有些迷茫,目前客服和數據預處理都有大量玩家參與,大的ERP公司例如金蝶、用友等可以嘗試調用大模型複製Glean,完善自己的企業軟件使用入口,進行優化,通過大模型調用各類SaaS。
國內ERP公司目前的超萬級的ISV和生態完整的工具棧壁壘是模型層完全無法競爭的,大概率做個內部技術支持。
主要是數字人視頻來代替面試(企業減少招聘投入並提供面試者之前機器面試的體驗感)和新員工的入職培訓視頻。
數字人互動直播與錄播有點類似,只是錄播少了互動。在錄播時會先把視頻錄製好,然後通過OBS推流,推到直播平臺就可以了。如果需要互動流程時,要獲取直播彈幕,判斷彈幕是否滿足回答條件,如果需要回答則生成答案,然後在走一遍視頻製作流程,然後推流。
技術上無壁壘,商業上直播不允許用錄製的視頻,作用只能在短視頻平臺進行視頻成本的下降。大廠都有在做。
目前對於可重複性多的視頻生成場景,有較高的價值,例如網課、入職培訓等教育和營銷領域。看好出海,收入增長快的公司。特別是出海,詳細分析請看下述的視頻生成賽道。
初創公司代表:硅基智能、Fancytech、Heygen等,其他數字人中小公司也很多。
根據服務對象劃分,Legal Tech 的種類可以分爲 ToL 服務律師事務所、ToB 服務企業法務部門及 ToC 服務消費者。但值得注意的是,無論是 ToL 還是 ToB,企業纔是最終付費方。即便產品的客戶是律師事務所,由於律師事務所是爲企業服務的,律師事務所會把 Legal Tech 工具轉交給客戶報銷【60】。
LLM 出現前的法律 AI (以 NLP 爲主)主要運用於合同管理,但這些工具以信息檢索爲主,很難對信息進行深度的處理與分析!
產品:
律所工作流:客戶訴求的溝通與拆分、法律研究(法條檢索和判例研究)、客戶方案設計、合同、訴訟文書或其他法律文件的處理,以及其他涉及到法律適用問題的工作
模型層:
法律 LLM 創業公司主要直接接入 API 或 finetune 大模型,不同公司選擇了不同的供應商,Harvey、CoCounsel、Spellbook 接了 GPT4,其中 Harvey 和 CoCounsel 2022 年下半年就獲得了 GPT4 的優先使用權,Robin AI 則選擇了與 Anthropic 的 Claude 合作;公司多采取多個模型組合去完成不同細分任務。
數據層:
不同公司能獲得的優質數據不同,這對於 LLM 的表現會產生較大影響。CoCounsel 因具有 Casetext 多年的數據積累,並被湯森路透收購,可以使用其世界級法律內容庫,在數據維度具有較大優勢;Lexis AI 背靠 LexisNexis 也有類似的優勢。而 Harvey、Robin AI 等新興創業公司選擇與頭部律師事務所、四大審計公司綁定的方式獲得優質訓練數據。
看好有大模型訓練能力、行業專業數據庫、深入大客戶工作流的切入團隊是關鍵。
市場規模:
中國機會更大,2023年中國各類案件接受3200萬件,400萬件未處理,還有1400萬調解(每年還以30%速度增長,這些都是強制未上升至受理案件的!中國法律服務能力缺口極大!),還有各類監管審查工作,ai的出現可以極大緩解公檢法的極大壓力!中國律師事務所4萬家,每年增加2000家,中國約 57 萬名律師。保底110 美元/月/人+超量使用+定製開發,目前市場規模60個億元,且將會不斷快速增長30%!
在中國to b法律領域有個重要問題就是,律師普遍工資不高,實現替換意願不強,目前商業化進展緩慢。但需要持續關注。
筆者更關注龐大的C端市場!中國人需要一款專業的法律詢問APP,依法治國的前提。
美國Harvey(openai投資),CoCounsel
中國:冪律智能(有數據、模型開發已完成)智普AI和北大的Chatlaw
需求:國家和行業合規要求--GDPR,PCI-DSS,HIPAA,SOC 2,避免罰款和停止運營;合規和審計成本高--大型企業完成SOC2審計的單次成本超過100萬元;工作量巨大,只能通過抽查來減少工作量,跨多部門,工作協調困難,數據隱私保護缺失,通過海量數據的採集和分析做到高效證據獲取,最終生成可支持審計目標的合規報告。大大降低合規的成本(預計提升效率40倍)--人工審查+審計;同行檢舉過多,罰錢多。
兩大業務:審計(出海大公司)和數據合規(出海公司)
工作流:1理解當地法律法規 2梳理業務場景 3找到敏感違規業務流 4合理規避法律風險 5定期人工檢查 6生成報告
市場測算:
數據合規(出海的中小型公司)
2027年,出海企業72萬家,每年新增5萬家,所有的涉及數據獲取的企業都要符合當地規定,會遭同行舉報,有天價罰款。假設滲透率20%,10萬一年,中小型增量就有150億人民幣。大型公司將根據用量收款。
還有審計(出海大公司),想象空間大
發展趨勢:IT合規自動化平臺在國內尚無明顯領先者--主要是法律新規,美國歐洲很成熟,中國剛剛起步,沒有競爭對手,出海和國外上市公司需要。
(二)研發設計類
從技術來說,LLM+Diffusion的生成技術就是完美契合該類行業,甚至幻想本身就是一種創造力。從商業價值上來說,創造是最好的切入工作流的入口!先創造後修改!
在講美術生成式的行業之前,筆者先講下國外幾家在做的事情以及思考,方便大家理解整體市場。
基於 Diffusion Model的Open model + Private Data,主要是針對B,G端的用戶
戰略:針對B端用戶做模型的開發,支持開源爲了證明技術、模型可控性和低成本技術外包!C端用戶順...