生數科技完成新一輪融資,國內多模態大模型廠商着力追趕Sora

3月12日消息,北京生數科技有限公司(以下簡稱“生數科技”)宣佈完成新一輪數億元融資,由啓明創投領投,達泰資本、鴻福厚德、智譜AI、老股東BV百度風投和卓源亞洲繼續跟投。本輪由華興資本擔任獨家財務顧問。

公開資料顯示,生數科技成立於2023年3月,主要業務集中在圖像、3D、視頻等原生多模態大模型的研發。據介紹,本輪融資將主要用於多模態基礎大模型的迭代研發、應用產品創新及市場拓展。

今年年初,OpenAI發佈文生視頻產品Sora,以超長生成時長與高質量視頻引發廣泛關注。啓明創投合夥人周志峰曾預測,隨着Scaling Law在視頻生成領域的進一步加強,多模態技術將引領一系列令人矚目的創新。而着眼於國內多模態大模型賽道,生數科技、愛詩科技等企業已成爲國產Sora的有力競爭者。

近期發佈的多模態模型中,無論是Sorad還是Stable Diffusion 3,均採用了Diffusion Transformer架構(DiT),即在Diffusion Model(擴散模型)中,用Transformer替換常用的U-Net,將Transformer的可擴展性與Diffusion模型處理視覺數據的天然優勢進行融合,從而在視覺任務下展現出卓越的涌現能力。

目前來看,Diffusion Transformer架構(DiT)是經過驗證、初步得到業內共識的技術路線。生數科技CEO唐家渝表示,目前業內的技術路線已經趨於收斂。此前愛詩科技CEO王長虎也曾表示,Sora的出現驗證了以Diffusion+Transformer爲基礎的視頻生成大模型能夠實現更優的表現,也堅定了愛詩科技未來的發力方向。

追本溯源來看,DiT架構由伯克利團隊於2022年12月發表。但其實早在2022年9月,生數科技創始成員就提出了基於Transformer的網絡架構U-ViT,兩項工作在架構思路與實驗路徑上完全一致,均是將Transformer與擴散模型融合。

2023年3月,生數科技曾開源了多模態擴散大模型UniDiffuser,在參數量和訓練數據規模上與Stable Diffusion直接對齊。除了單向的文生圖以外,Unidiffuser也支持更通用的圖文任務,能夠實現圖生文、圖文聯合生成、圖文改寫等多種功能。當時模型架構便是基於Diffusion Transformer架構(U-ViT)。

儘管對擴散模型融合架構已有研究基礎,但唐家渝坦言,目前與Sora相比還是存在一定差距。如生數科技、愛詩科技也都設立了追趕Sora的目標。

唐家渝表示,擁有在大規模GPU集羣上實現高效兼容、低成本的模型訓練經驗之後,追趕Sora肯定比追趕GPT-4輕鬆很多,預計今年可以達到Sora目前版本的效果。

在愛詩科技最新一輪融資消息中也提及,新融資將主要用於底層視頻大模型的技術研發及團隊搭建。據王長虎透露,未來將集中人力和資源,在3至6個月內趕超Sora目前水平。

在爲行業帶來震撼之餘,Sora也改變了國內廠商在研發方面的佈局。“能力擴展到3D、長視頻的最大限制因素其實是資源。”唐家渝表示,在不確定路線時需要投入大量成本進行實驗,而OpenAI用大量資源驗證路徑可行性實際上打消了很多疑慮。

因此,據唐家渝所說,生數科技在內部提升了長視頻生成的優先級,針對長視頻畫面的連貫性等問題展開研發工作,同時也將進一步完善已有的數據清洗、打標體系。

在商業化落地方面,基於其MaaS(模型即服務)能力,生數科技一方面以API的形式向B端機構直接提供模型能力,主要合作客戶集中在遊戲公司及互聯網企業;另一方面選擇研發垂類應用產品,按照訂閱等形式收費,目前已經上線視覺創意設計平臺PixWeaver、3D資產創建工具VoxCraft。

相較於數據資源相對充足的圖文、視頻領域,3D資產生成相關的數據質量相對較差。針對這一點,唐家渝稱目前生數科技內部選擇採用2D數據與3D數據聯合訓練的方案來提升建模效果。

在生數科技此次新融資的資方中,如智譜與百度均在大模型方面有所佈局。對此唐家渝迴應稱,智譜與百度的模型產品均偏向語言模型,更看重理解和邏輯推理能力,與生數科技的多模態能力爲互補與合作關係。