AIGC行業報告:從文生圖到文生視頻,技術框架與商業化

(報告出品方/作者:國海證券,陳夢竹、尹芮)

底層模型技術框架梳理

文生圖:基於文本生成圖像,Stable Diffusion開源後迎來快速發展

文生圖(Text-to-Image)是基於文本通過生成式AI生成圖像的模式。近3年時間,文生圖的技術已實現大幅的進步,海外的Stable Diffusion、Midjourney已經能夠提供較高質量的圖像,國內的萬興科技的萬興愛畫、百度的文心·一格也投入商用。文本生成圖像的底層模型可以分爲 GAN、擴散模型、自迴歸模型三類。目前行業內的明星模型主要基於擴散模型。

文生視頻:與文生圖底層技術一致,自迴歸和擴散模型爲主流

文生視頻(Text-to-Video)是基於文本通過生成式AI生成視頻的模式。隨着文生圖技術的精進與成熟,對於文生視頻的技術的發展和關注逐漸演變及增加,近3年時間,以Runway爲代表的文生視頻公司在不斷涌現,互聯網行業的巨頭,比如谷歌、Meta、微軟,同樣投入人員和精力參與其中,國內目前文生視頻技術還在初期發展階段,目前魔搭社區(Model Scope)裡的開源模型ZeroScope表現亮眼。文本生成視頻模型的發展經歷三個階段:圖像拼接生成階段、GAN/VAE/Flow-Based生成階段、自迴歸和擴散模型階段。

GAN:通過生成器和判別器對抗訓練提升圖像生成能力

GANs(GAN,Generative Adversarial Networks),生成對抗網絡是擴散模型前的主流圖像生成模型,通過生成器和判別器進行對抗訓練來提升模型的圖像生成能力和圖像鑑別能力,使得生成式網絡的數據趨近真實數據,從而圖像趨近真實圖像。

自迴歸模型:採用Transformer結構中的自注意力機制

自迴歸模型(Auto-regressive Model)採用Transformer進行自迴歸圖像生成。Transformer整體主要分爲Encoder和Decoder兩大部分,能夠模擬像素和高級屬性(紋理、語義和比例)之間的空間關係,利用多頭自注意力機制進行編碼和解碼。採用該架構模型的文生圖通常將文本和圖像分別轉化成tokens序列,然後利用生成式的 Transformer 架構從文本序列(和可選圖像序列)中預測圖像序列,最後使用圖像生成技術(VAE、GAN等)對圖像序列進行解碼,得到最終生成圖像。

擴散模型:當前主流路徑,通過添加噪聲和反向降噪推斷生成圖像

擴散模型(Diffusion Model)是通過定義一個擴散步驟的馬爾可夫鏈,通過連續向數據添加隨機噪聲,直到得到一個純高斯噪聲數據,然後再學習逆擴散的過程,經過反向降噪推斷來生成圖像,通過系統地擾動數據中的分佈,再恢復數據分佈,逐步優化過程。

CLIP:實現文本和圖像特徵提取和映射,訓練效果依賴大規模數據集

CLIP(Contrastive Language-image Pre-training)是基於對比學習的文本-圖像跨模態預訓練模型,由文本編碼器(Text Encoder)和圖像編碼器(Image Encoder)組成,編碼器分別對文本和圖像進行特徵提取,將文本和圖像映射到同一表示空間,通過文本-圖像對的相似度和差異度計算來訓練模型,從標籤文本創建數據集分類器,從而能夠根據給定的文本生成符合描述的圖像。

商業化模式及成本拆分

平均來看自迴歸模型成本最高,生成視頻成本遠高於生成圖片

但在實際模型應用中,成本不僅取決於參數量大小,也取決於訓練時間和用戶規模。前期訓練階段,若對模型訓練時間沒有要求,可以通過延長訓練時間降低GPU成本;若對訓練時間要求較短,則需要佈局更多芯片提高訓練速度。上線階段,如果用戶體量很大,比如OpenAI和Midjourney規模用戶體量,線上運營推理的成本可能佔到整體成本80-90%,訓練階段成本只佔10-20%。

人眼看到的視頻是透過一連串的靜態影像連續快速播放的結果,由於每一張靜態畫面的差異很小,因此連續快速播放時,一張張快速閃過的靜態畫 面在人眼視網膜上產生“視覺暫留”現象,原本靜態的圖像彷彿連貫運動了起來。

通常來說,人看到視頻是連貫的需要幀率爲每秒24幀以上,電影放映的標準也是每秒24幀以上。如果文生圖一次性消耗的算力是一個單元,文生視頻一次產生消耗約24個單元。實際應用可能是小於24,但不會小特別多,並且很有可能大於24,因爲文生視頻不僅僅是簡單的把圖片快速播放起來,還需要內容具備多維性和多元性。目前主流文生視頻模型生成視頻長度僅支持2秒~4秒。

文生圖領域整體創業門檻低於大語言模型,商業模式仍存疑問

模型層看:圖像生成領域已有生成質量較高的開源預訓練模型Stable Diffusion,且SD具有較爲豐富的開發者生態,有許多插件供選擇。創業公司可基於Stable Diffusion基礎版本進行進一步調優和個性化數據訓練,Stable Diffusion最新發布的開源模型SDXL1.0採用更大參數量級進一步提升了生成圖像質量。例如初創公司⽆界 AI 便是國內最早基於 SD 模型推出 AI 繪畫⼯具的平臺之⼀。

成本端看:從主流模型參數規模看,文生圖參數量級多在1-10B之間,而通用大模型入門級門檻達到了70B,文生圖整體參數量級較小,成本遠低於通用大模型。通過調研文生圖初創公司,實際小團隊利用開源模型,初期在用戶不到1萬情況下甚至無需購買A100,通過購買RTX3040系列、IBS3060(5000~1w/張)也可以啓動。用戶1萬左右的文生圖公司,生成單張圖片的成本在0.1元左右。

文生圖領域雖然創業門檻低,但商業模式仍存疑問。但國內C端用戶付費意願偏低,B端則需要和場景強相關,會有較多定製化的場景,要針對不同客戶的產品需求去打造相應的圖片生成的引擎,對工程化能力有很高的要求,長期看大公司可能具備更強的場景和工程化能力。以無界AI爲例,其用戶量接 近300萬,C端付費率約20%,營收主要來源於B端客戶。

文生圖代表模型及應用

Meta:公佈基於自迴歸的模型CM3Leon,生成質量媲美主流擴散模型

7月16日,Meta在官網公佈CM3leon,是首個使用純文本語言模型配方改編和訓練而成的多模態模型,使用了30億文本token,並經歷了大規模檢索增強預訓練和隨後的多任務監督微調(SFT)階段。

Midjourney:基於擴散模型的文生圖龍頭,用戶規模超千萬

Midjourney 是AI基於文字生成圖像的工具,由David Holz創立於2021年。Midjourney以擁有充沛流量的Discord爲載體,實現低成本獲客和低成本營銷,在此中擁有超過1000萬人的社區,不到一年完成了1億美元的營收,但至今未融資。Midjourney的模型是閉源的,參考CLIP及Diffusion開源模型的基礎上抓取公開數據進行訓練。

Stability AI:發佈Stable Diffusion開源模型

Stable Diffusion是Stability AI下的一款基於生成式AI的文本生成圖像的模型,於2022年8月首次推出。2022年10月Stability AI獲得了由全球風險投資公司 Lightspeed Venture Partners和Coatue Management領投的1.01億美元融資,估值突破10億美元,是AI繪畫領域的第一家“獨角獸”。

Clipdrop被Stability AI收購,融入多項AI功能圖像處理能力優秀,數據顯著增長

公司簡介:Clipdrop是Init ML公司旗下的AI圖像編輯和生成應用。該應用包含超過10種圖像處理工具,也加入了AI智能生成圖片功能。母公司Init ML於2020年創立於法國,於2023年3月被AI圖像生成模型Stable Diffusion的母公司Stability.AI收購。2022年6月,Stability.AI發佈SDXL 0.9,表示其是“Stable Diffusion文本-圖像模型套件”的最先進開發版本。在收購Clipdrop後,SDXL 0.9功能應用於Clipdrop中。2023年7月26日,Stability.AI發佈SDXL 1.0,進一步提升Clipdrop性能。其後數據出現明顯增長,2023年7月網站訪問量接近1500萬。

Adobe Firefly:與Adobe旗下圖像編輯軟件結合,具備較強可編輯性

Firefly是Adobe的一款基於生成式AI的工具,能夠通過100多種語言,使用簡單的文字建立影像、生成填色、對文字套用樣式和效果、生成式重新上色、3D轉換爲影像、延展影像等。目前的 Firefly 生成式 AI 模式使用 Adobe Stock 資料集、開放授權作品和著作權已到期的公共內容進行訓練。2023年9月,Adobe公佈旗下AIGC工具Firefly AI的商業化方案:點數制收費,用戶使用AI作圖時消耗生成點數,每個點數對應一張圖,每月可免費獲得25點生成點數,同時可以付費購買額外點數。以單獨購買Adobe Firefly的價格計算,生成每幅圖像的價格大約爲5美分。

文生視頻代表模型及應用

視頻生成模型:行業迎來小幅高潮,生成質量仍有提升空間

在一定程度上,文本生成視頻可以看作是文本生成圖像的進階版技術,同樣是以Token爲中介,關聯文本和圖像生成,逐幀生成所需圖片,最後逐幀生成完整視頻。據量子位發佈的《AIGC/AI生成內容產業展望報告》,視頻生成將成爲近期跨模態生成領域的中高潛力場景,其背後邏輯是不同技術帶來的主流內容形式的變化。

清華CogVideo:首個開源的中文文本生成視頻模型,基於自迴歸模型

CogVideo是由清華團隊2022年發佈的基於預訓練的CogView2(文本生成圖像模型)9B-參數轉換器。CogVideo是當時最大的、首個開源的文本生成視頻模型,支持中文prompt,參數高達94億。CogVideo採用的 Transformer結構,和CogView的幾乎一致,例如使用夾層範數(Sandwich LayerNorm)和PB-Relax來穩定訓練。

谷歌 Phenaki:首個可生成長視頻的自迴歸模型

Phenaki由Google Research開發製作,該模型是第一個能夠從開放域時間變量提示中生成視頻的模型,能夠根據一系列開放域文本提示生成可變長度的視頻。通過將視頻壓縮爲離散的令牌的小型表示形式,詞例化程序使用時間上的因果注意力,允許處理可變長度的視頻。轉換器以預先計算的文本令牌爲條件,使用雙向屏蔽轉換器使得文本生成視頻令牌,生成的視頻令牌隨後被取消標記化以創建實際視頻。

Runway Gen-1 & Gen-2:商用文生視頻的明星應用

Runway 是基於生成式AI的圖像和視頻編輯軟件供應商,是目前面向C端客戶商業化的公司,由Cristóbal Valenzuela,Alejandro Matamala 和Anastasis Germanidis創立於2018年,是福布斯AI50榜單:最有前途的人工智能公司之一,其總部位於美國紐約。公司堅持在AIGC領域,細分領域從原來的圖片轉換到視頻的編輯與生成。Runway可以支持用戶進行圖像處理、文本生成圖像、更改視頻風格、文生視頻等多項服務。