【獨家】字節即夢將在Sora發佈前上線視頻生成模型PixelDance
11月14日,界面新聞從多個知情人士處獲悉,字節跳動視頻生成模型PixelDance將很快在即夢AI上線,面向公衆開放使用,具體的上線時間將會早於Sora正式發佈的時間。
Runway聯合創始人Cristóbal Valenzuela曾在11月9日稱,OpenAI計劃在大約兩週內發佈Sora。Cristóbal Valenzuela曝出該消息之前,OpenAI公佈了一條聯合倫敦藝術家Jon Uriarte創作的短片,似乎是在爲Sora的正式發佈預熱。
這意味着,PixelDance很可能會在最近幾天內發佈。界面新聞向字節跳動方面求證此事,截至發稿,對方暫未迴應。
字節跳動在大模型領域一直動作頻頻。9月24日,該公司一口氣發佈了豆包視頻生成PixelDance、豆包視頻生成Seaweed兩款大模型,並通過即夢AI和火山引擎面向創作者和企業客戶小範圍邀測。據知情人士透露,PixelDance除了即將在即夢AI上線之外,還將於近期在豆包開啓內測。
從其此前展示的視頻生成效果來看,豆包視頻生成模型無論是語義理解能力,多個主體運動的複雜交互畫面,還是多鏡頭切換的內容一致性方面,都表現出不錯的效果。
其中一個視頻輸入是,“特寫⼀個⼥⼈的面部,有些⽣⽓,戴上了⼀副墨鏡,這時⼀個男⼈從畫⾯右側⾛進來抱住了她。”視頻畫面顯示,其不僅遵循了這個複雜指令,還能夠按指令的時序去完成連續的動作,兩個主體之間也能比較順暢地進行交互,且人物表情較爲準確傳達了指令所描述的情緒。
據界面新聞了解,人物動作是當下視頻生成模型共同面臨的挑戰,即使是Sora在人物動作上做得也不夠好。OpenAI在今年年初公佈的視頻樣片顯示,Sora還是以運鏡和基礎動作爲主,複雜動作較差,但豆包視頻模型生成公佈的樣片在動作上有了明顯提升。
一位多模態大模型科學家對比PixelDance和Sora公佈的樣片後告訴界面新聞,如果樣片效果保真的話,字節跳動的視頻生成大模型確實是相當不錯。從學術角度或者模型能力角度來說,其肯定達到了Sora的水平,尤其在人物動作上非常棒。
火山引擎總裁譚待此前也透露,豆包視頻模型經過剪映、即夢AI等業務場景的持續打磨和迭代,優化了Transformer結構,大幅提升了豆包視頻生成的泛化能力。同時,豆包視頻生成模型基於DiT架構,讓視頻在大動態與運鏡中自由切換,擁有變焦、環繞、平搖、縮放、目標跟隨等多鏡頭語言能力。在鏡頭切換時可同時保持主體、風格、氛圍的一致性是豆包視頻生成模型的技術創新所在。
而從OpenAI近期公佈的最新短片來看,Sora也在着重提升其在人物動作上的能力。該短片處理的是多人坐在椅子上飛行的場景,無論是照片質量還是細節處理上,都更接近照片的水準,人物動作也更加自然。
若PixelDance正式面向公衆開放,或意味着其在技術上已較爲成熟。對於豆包視頻生成模型的發佈節奏,譚待曾透露,豆包系列大模型並不是按照某個固定的時間計劃發佈的,有好東西就儘快推出。
“我們的邏輯是推出的產品要質量可靠,有充分的用戶反饋,不能是半成品。就像視頻和語言模型發佈一樣,不一定要搶第一,要推出成熟的產品。”譚待說。