文生視頻,爆發在六月

過去一個月,稱得上文生視頻大模型月。

愛詩科技PixVerse、快手可靈、Luma AI的Dream Machine、Runway的Gen-3 Alpha、開源項目Open-Sora、谷歌DeepMind的V2A,一衆產品迎來發布更新潮。

令不少業內人士驚訝的是,國內企業在短短几個月時間中拿出了一些產品。快手可靈文生視頻大模型,作爲全球第一個可公開試用的生成時長超過1分鐘的產品,節奏甚至走在了Sora的前面。

此前,Sora橫空出世時,國內AI圈人士表現出了濃重的悲觀情緒。當時他們認爲Sora加劇了中外的差距,國內與海外有了明顯代差,且國內形成Sora類的產品還遙遙無期。

現在,文生視頻賽道國產AI正加速趕上來。人工智能企業精準學AI技術負責人張寧告訴數智前線,箇中緣由在於現在技術路線已沒有秘密,而視頻生成賽道目前階段對算力要求並不及大語言模型,可能在千卡集羣規模,這對國內企業不構成掣肘。

數智前線還觀察到,除了文生視頻大模型領域,在非Sora路線的視頻生成應用,國內有不少企業在產品化和價值驗證上也邁開了步子,"應用驅動,非常有生機"。

行業很熱鬧,不過業內也坦言,文生視頻大模型在產品一致性、生成時長等角度仍有待進步,行業仍未迎來ChatGPT時刻。

01 國內文生視頻能力追趕海外

6月6日,快手的文生視頻大模型可靈發佈,一口氣把視頻生成的時長提到了2分鐘級。

在線上開放版本里,用戶輸入開放式文本描述,等待幾分鐘就能生成時長5秒,幀率30fps,分辨率1080p,且支持多種寬高比的視頻。21日,可靈的功能再度更新,上線了圖生視頻和視頻時間延長功能,用戶添加更多描述,據稱最長能夠生成長達3分鐘的視頻。

快手官方將可靈定義爲"首個效果對標 Sora且面向用戶開放的文生視頻大模型",對比今年2月引爆賽道的Sora,目前OpenAI仍沒有推出公開可適用產品,目前對外展示的視頻最長生成時間也僅爲60秒水平。

快手可靈的能力,引發了業界的廣泛關注。截至6月26日,有超過18萬人在快影的排隊列表裡等待試用。這種熱度可能快手官方也沒有意料到。有一個插曲,快手視覺生成與互動中心負責人萬鵬飛出席北京智源大會時說受到了不少關注,他看起來頗不習慣。論壇主持人打趣讓他"儘快習慣"。

在社交媒體上,可靈收到了海內外的不少好評。"感覺無論是畫質、運動幅度、人物、場景一致性上完全不輸sora,可靈的生成質量是現在普通用戶能接觸到的天花板",一位AI行業人士不吝稱讚。

可靈的出現明顯提振了國內文生視頻賽道的士氣。

實際上不止是可靈,過去幾個月裡,國內文生視頻賽道上的進展不小,多家企業都推出了各類文生視頻模型產品。

比如,愛詩科技的Pixverse也是國內出品,愛詩科技核心團隊是此前的字節視覺技術團隊而來。4月,生數科技發佈文生視頻大模型Vidu,可根據文本描述直接生成長達16秒、分辨率高達1080P的高清視頻內容。一個月前,騰訊也發佈混元最新一代基於DiT架構的視頻生成模型,能生成16秒視頻,預計今年第三季度將推出的下一代文生視頻模型,可生成30秒以上視頻。

在一衆產品中,爲什麼國內大廠並不是特別有錢的快手能做到產品化?

一位資深人士認爲,國內加速發展在於文生視頻賽道自從Sora驗證了Scalling Law之後,技術上已經沒有了秘密。

愛詩科技創始人王長虎表示,Sora橫空出世生成了新語言。Sora最重要的貢獻是驗證了視頻生成的規模定律,模型越大,可用的優質數量數據越多,產生的效果更好。

過去十年,Diffusion技術支撐了AIGC圖像視頻生成的發展。此前視覺生成擴散模型主要基於 U-Net 架構,而Sora採取了Diffusion+Transformer架構(也即業界提出的DiT架構),去掉了U-NET架構,同時利用了大語言模型幫助增強,以及做訓練數據的精細化達標。這個技術也使得衆多視頻生成能力進一步提升。

除此之外,精準學張寧告訴數智前線,訓練文生視頻大模型對算力的需求沒有大語言模型那麼大,也是國內在模型能力上快速追平的原因。"當下的生成時長和能力,需要的算力可能在千卡規模,比大語言模型小很多,現在GPT-4訓練時需要的集羣規模在3.2萬張卡水平"。

02 應用驅動的另一股流向

視頻生成領域,另一股趨勢也頗爲明顯。在應用驅動下,不少企業已經把視頻生成技術形成產品和解決方案,去解決行業問題。

6月21日,華爲盤古大模型5.0發佈,其中多模態能力裡就包括了視頻生成技術。華爲一貫強調大模型技術要解決行業難題,在視頻生成技術上也是如此。

華爲常務董事、華爲雲CEO張平安介紹,視頻生成技術應用到了自動駕駛的訓練環節。自動駕駛應用裡的視頻生成,最怕天馬行空。比如多個行駛視角的視頻合併時,車子可能會莫名其妙消失,這樣的視頻明顯不能用於自動駕駛算法訓練。

盤古5.0基於自研的可控時空生成技術,能理解物理規律,大規模的生成和實際場景相一致的駕駛視頻數據。像是生成的雨天的汽車行駛視頻裡,車子的尾燈都是開啓的。這代表模型通過對海量視頻數據的學習,學習到了雨天開車應該開車燈。目前華爲沒有透露這種生成能力的技術路線。

另一些企業,則集成了大模型的能力,根據文字組裝視頻,幫助一些B端企業實現更低門檻創作各類視頻。

特看科技CEO樂乘告訴數智前線,他們推出視頻AIGC生成平臺,主要是想幫國內出海商家和海外本土企業降低B端廣告營銷視頻製作門檻。這種做法與基於文字從0~1生成畫面的類Sora產品不是一回事。

Sora基於文字憑空生成視頻,而特看的文生視頻工具,接入了海外主流的大語言模型和TTS及多模態大模型。大模型學習爆款視頻的文本結構,生成適合商家產品的文案和腳本,之後自動與商家提供的產品素材匹配,一鍵生成視頻。

這是在應用層的嘗試。它的Know-How則在於,如何把不同的模型銜接在一起,並實現流暢工作的工程能力。比如在線合成、在線編輯的流暢程度,數字人的口型和內容的匹配吻合,動作和畫面如何組合等。

另外面向B端可用的視頻生成產品,也重視內容的可控性,特看的應用從腳本生成到素材匹配,每個環節都支持用戶在線編輯調整,"Sora對我們是增強作用,比如視頻某個鏡頭不行,我們未來可以接入它,用Sora生成片段去填充。"樂乘介紹。

魔琺科技創始人柴金祥則從培訓、電商、金融、快消、廣電等企業級場景裡,企業對高質量、可編輯、且能精準傳遞信息的內容需求出發,推出有言AIGC一站式3D 視頻創作平臺。

"以往拍攝一條高質量3D動畫產品,成本按照秒來計算,週期卻要幾個月,幾十萬成本也下不來。"柴金祥說,他們拆解了3D內容所包含的各類要素,將製作3D視頻的流程固化成了軟件化的工業產線。

比如面向產品發佈會、彙報視頻,知識分享等不同場景,需求方可以調整3D形象的性別、面部特徵、頭髮顏色、外觀、服飾、配飾等各種細節,搭配上不同的場景素材。大語言模型、TTS模型的能力被集成到系統裡,與此前搭配的素材組合,生成符合需求、內容可控的高質量3D視頻。

從應用層發力,產品在企業級場景應用和落地速度也推進很快。比如魔琺科技介紹,目前在教育、培訓、文旅、政務、金融、3C、快消等多個行業都有頭部企業在用他們的產品,已經完成了價值驗證。而特看科技也透露,一些出海企業如安克等,已使用這款產品來做網頁和社媒推廣的視頻。

基於大模型的能力往行業和應用層挖,"模型崩了應用也不能用了,大模型升級後應用的效果也會增強,比如隨着模型推理的能力增強,生成的速度會越來越快,價格可能也會變便宜,文案質量和視頻的質量也越來越高。"樂乘說。

03 熱鬧之下,行業仍需跨越鴻溝

國產AI能力加速追趕之外,不得不說整個6月裡賽道的另一個特徵——產品井噴潮。巨頭谷歌、明星公司Runway、新晉創企Luma AI,再到國內的短視頻企業快手,都推出了產品或發佈了更新。

比如硅谷創業公司Luma AI推出的Dream Machine,可基於文字或圖片輸入,在120 秒內生成長度爲5秒的高質量視頻。推出後不少試用者就稱在能力上吊打了老牌AI企業Runway的文生視頻模型Gen-2。

幾天後,Runway馬上找回了場子,它宣佈即將推出新模型Gen-3 Alpha,相比上一代的Gen-2在保真度、一致性和運動表現方面有重大改進。並且它支持多種創作方式,包括文本到視頻(T2V)、圖像到視頻(I2V)和文本到圖像(T2I) 等能力。雖然未開放試用,但Runway在官網釋出了不少精彩的視頻。

目前,廠商們都沒有公佈文生視頻模型的參數量級,多是模型即產品模式,主要圍繞生成視頻的時長、視頻的分辨率等指標展開。分鐘級的內容生成能力,之前Sora是獨苗,快手可靈推出後,一下子刷新了這個指標。已公佈產品裡,騰訊此前宣佈過文生視頻模型生成時長達到了16秒,三季度要到20秒。其他各家目前的產品看還停在10秒以內 。

另外,各家的產品化階段和對公衆可用的進度也不一。

這種你追我趕的架勢,看起來與大語言模型領域的內卷遊戲如出一轍。Sora的DiT路線驗證了文生視頻領域的Scaling law之後,文生視頻賽道底層模型的未來走向也變得明瞭。

樂乘認爲,Sora和它的追隨者們,後續的競爭態勢會跟現在大語言模型一樣。大廠的閉源版產品+開源版,大家一起卷,能力逐漸拉平趨同。

目前行業裡開源產品的能力也在提升。今年3月18日,潞晨科技旗下Colossal-AI團隊開源了其Open-Sora 1.0視頻生成模型,包括模型權重、訓練源代碼和詳細的架構,目前在GitHub上獲得超過19.6k的星標。

潞晨科技Open-Sora負責人申琛惠提到,Open-Sora開源項目,經過迭代更新,目前版本能單次生成大概20秒的視頻,針對於最初版本只能生成2秒,有了顯著的提升,基於之前視頻生成的延續性生成可以長達數分鐘。

她也提到了開源項目模型Demo和OpenAI沒有辦法去比。"OpenAI使用到大概2000-4000個H100的GPU,花費5000萬美元到2億美元的訓練成本,我們用了大概1萬美金這樣的範圍成本進行實驗"。

值得一提的是,快手可靈推出後,已經有不少人士在關注能否"開源白嫖"。萬鵬飛出席北京智源現場兩次被提問模型的開源打算。他迴應稱,他們暫時不考慮開源,目前已經放出了一些關鍵的判斷和設計,未來也會把一些硬核的東西逐步釋放出來,大家一起交流學習。

當下業界普遍意識到,文生視頻產品距離商用仍然有不小的鴻溝需要跨越。

一個突出的問題是效果不穩定,有人將之類比爲"抽卡"。"在限定的語句和限定的訓練樣本內,可以獲得很好的效果,但是一超過邊界就會天馬行空,甚至羣魔亂舞,超越人類常識和認知。"一位人士使用後評價。

爲了減少"抽卡",企業也在想辦法提升體驗,比如愛詩科技用到了圖生視頻這種"墊圖"的方法。王長虎提到,如果用文生視頻,需要嘗試 25 次才能生成一次可用的,文生圖每生成 5 次就能有一次可用的,再用這張圖通過技術把它動起來,抽卡成功概率就從 1/25 提升到了 1/10。

另外,如何對運動規律和物理世界實現更好的建模,如何生成更長的可用視頻,以及如何能夠表達鏡頭語言,生成多鏡頭內容,都是未來AI視頻要解決的問題。業界已有共識,目前視頻生成還沒有到ChatGPT階段。

"視頻生成模型目前還處於一個相對早期的發展階段,其情形有點類似於視頻領域的GPT-2時期。市場上尚未出現一個完全成熟且廣泛可用的視頻生成應用。"潞晨科技創始人兼董事長尤洋今年4月指出。