☰

【獨家】字節即夢將在Sora發佈前上線視頻生成模型PixelDance

11月14日，界面新聞從多個知情人士處獲悉，字節跳動視頻生成模型PixelDance將很快在即夢AI上線，面向公衆開放使用，具體的上線時間將會早於Sora正式發佈的時間。

Runway聯合創始人Cristóbal Valenzuela曾在11月9日稱，OpenAI計劃在大約兩週內發佈Sora。Cristóbal Valenzuela曝出該消息之前，OpenAI公佈了一條聯合倫敦藝術家Jon Uriarte創作的短片，似乎是在爲Sora的正式發佈預熱。

這意味着，PixelDance很可能會在最近幾天內發佈。界面新聞向字節跳動方面求證此事，截至發稿，對方暫未迴應。

字節跳動在大模型領域一直動作頻頻。9月24日，該公司一口氣發佈了豆包視頻生成PixelDance、豆包視頻生成Seaweed兩款大模型，並通過即夢AI和火山引擎面向創作者和企業客戶小範圍邀測。據知情人士透露，PixelDance除了即將在即夢AI上線之外，還將於近期在豆包開啓內測。

從其此前展示的視頻生成效果來看，豆包視頻生成模型無論是語義理解能力，多個主體運動的複雜交互畫面，還是多鏡頭切換的內容一致性方面，都表現出不錯的效果。

其中一個視頻輸入是，“特寫⼀個⼥⼈的面部，有些⽣⽓，戴上了⼀副墨鏡，這時⼀個男⼈從畫⾯右側⾛進來抱住了她。”視頻畫面顯示，其不僅遵循了這個複雜指令，還能夠按指令的時序去完成連續的動作，兩個主體之間也能比較順暢地進行交互，且人物表情較爲準確傳達了指令所描述的情緒。

據界面新聞了解，人物動作是當下視頻生成模型共同面臨的挑戰，即使是Sora在人物動作上做得也不夠好。OpenAI在今年年初公佈的視頻樣片顯示，Sora還是以運鏡和基礎動作爲主，複雜動作較差，但豆包視頻模型生成公佈的樣片在動作上有了明顯提升。

一位多模態大模型科學家對比PixelDance和Sora公佈的樣片後告訴界面新聞，如果樣片效果保真的話，字節跳動的視頻生成大模型確實是相當不錯。從學術角度或者模型能力角度來說，其肯定達到了Sora的水平，尤其在人物動作上非常棒。

火山引擎總裁譚待此前也透露，豆包視頻模型經過剪映、即夢AI等業務場景的持續打磨和迭代，優化了Transformer結構，大幅提升了豆包視頻生成的泛化能力。同時，豆包視頻生成模型基於DiT架構，讓視頻在大動態與運鏡中自由切換，擁有變焦、環繞、平搖、縮放、目標跟隨等多鏡頭語言能力。在鏡頭切換時可同時保持主體、風格、氛圍的一致性是豆包視頻生成模型的技術創新所在。

而從OpenAI近期公佈的最新短片來看，Sora也在着重提升其在人物動作上的能力。該短片處理的是多人坐在椅子上飛行的場景，無論是照片質量還是細節處理上，都更接近照片的水準，人物動作也更加自然。

若PixelDance正式面向公衆開放，或意味着其在技術上已較爲成熟。對於豆包視頻生成模型的發佈節奏，譚待曾透露，豆包系列大模型並不是按照某個固定的時間計劃發佈的，有好東西就儘快推出。

“我們的邏輯是推出的產品要質量可靠，有充分的用戶反饋，不能是半成品。就像視頻和語言模型發佈一樣，不一定要搶第一，要推出成熟的產品。”譚待說。

【獨家】字節即夢將在Sora發佈前上線視頻生成模型PixelDance

相關資訊