字節跳動新模型提振機器視覺指數,暫未應用至產品端
2月10日,字節跳動旗下豆包大模型團隊發佈視頻生成實驗模型“VideoWorld”,該模型由豆包大模型團隊與北京交通大學、中國科學技術大學聯合提出。不同於 Sora 、DALL-E 、Midjourney等主流多模態模型,VideoWorld在業界首次實現無需依賴語言模型即可認知世界。
受該消息影響,今日收盤,據Wind數據,機器視覺指數漲2.45%。成分股中,中光學漲停,格靈深瞳漲9.69%,宇瞳光學漲7.54%。
需注意的是,字節內部人士對記者表示,VideoWorld視覺模型屬於學術研究項目,是在探索新的技術方法,目前並未應用至產品端。另外,儘管VideoWorld在圍棋和模擬機器人操控環境中展現出較優性能,但在真實世界環境中的應用仍面臨着高質量視頻生成和多環境泛化等挑戰。
據官方披露,爲進行該視頻模型研究,豆包團隊構建了兩個實驗環境:視頻圍棋對戰和視頻機器人模擬操控。前者是因爲圍棋可以評估模型規則學習、推理和規劃能力,且圍棋關鍵信息僅有黑白兩色及棋盤,可將外觀、紋理等複雜細節與高級知識的評估分離。
同時,豆包團隊還選取了機器人任務,以考察模型在理解控制規則和規劃任務方面的能力。在模型訓練環節,團隊構建了一個包含大量視頻演示數據的離線數據集,讓模型“觀看”學習,以此得到一個可以根據過往觀測,預測未來畫面的視頻生成器。
經過一段時間的探索,豆包團隊發現,視頻序列的知識挖掘效率顯著落後於文本形式,主要是因爲視頻中存在大量冗餘信息,影響模型的學習效率。比如在學習棋子移動過程中,模型只需通過狀態序列中少量位置標記編碼,但面向視頻數據,編碼器則會產生過多冗餘標記,不利於模型對複雜知識的快速學習,這也是VideoWorld模型誕生的背景,保留豐富視覺信息的同時,壓縮關鍵決策和動作相關的視覺變化,實現更有效的視頻學習。
VideoWorld並非字節發佈的首款視頻大模型。上週,字節跳動對外披露旗下一站式AI創作平臺即夢AI將上線多模態視頻生成模型OmniHuman,僅需一張圖片與一段音頻便可生成一條AI視頻,該模型爲字節自研閉源模型。此前,字節已發佈文生視頻大模型MagicVideo - V2、通用多模態大模型UniDoc等產品。
除了字節跳動,阿里、騰訊、快手等企業相繼推出視頻生成類產品,並披露在多模態領域佈局。此前接受第一財經等媒體採訪時,字節旗下火山引擎總裁譚待表示,企業做大模型是爲了輔助人去做各種事情,需要語言、視覺等方面的完整能力,這就要求大模型具備多模態能力,才能端到端地幫助個人創業者與企業去解決具體問題。
中信證券研報分析稱,頭部廠商對於多模態大模型的開發繼續呈現你追我趕的態勢,軍備競賽仍然激烈。多模態大模型算法的突破將帶來自動駕駛、機器人等技術的革命性進步。視頻模態更符合C端用戶的娛樂需求,尤其是與短視頻業態有較高匹配度,因此更有希望催生高熱度應用,但需要模型性能進一步成熟以及產品定義進一步摸索。