MiniMax低調發布首款文生視頻模型
8月31日,MiniMax低調發布首款視頻生成大模型,同時發佈一條由MiniMax大模型生成的2分鐘視頻《魔法硬幣》。
值得注意的是,目前MiniMax並未公佈模型的具體參數和技術要點。當天,MiniMax創始人閆俊傑在接受界面新聞等媒體羣訪時表示,“我們確實在視頻模型生成方面取得很大的進展,根據內部評測以及跑分,我們比Runway的(生成視頻)效果更好。”
據其透露,目前的視頻生成模型只是第一版,很快會有新版本,後續還會在數據、算法本身、使用細節等方面繼續迭代,現在只提供文生視頻。未來圖生視頻、文+圖生成視頻都會陸續出來。
“我們的策略先再等一兩週,等新東西到達滿意狀態後,可能會考慮商業化。”閆俊傑進一步表示。
目前,MiniMax的商業化由兩部分組成,開放平臺有兩千多家客戶。其次,該公司的產品中也有廣告機制。“現階段,最重要的東西不是商業化,而是技術能夠到達廣泛可用的程度。”閆俊傑說。
然而,相較於快手可靈,MiniMax推出視頻生成模型在時間上晚了一兩個月。
閆俊傑解釋,這期間,團隊一直在解決更難的技術問題——如何訓練算力較高的內容。難度在訓練視頻生成能力,需要先把視頻變成token,這些token非常長,越長複雜度越高。最終,MiniMax團隊通過算法不斷降低複雜度,壓縮率變得更高,因此發佈時間晚了一兩個月。
但他也表示,不管是視頻、文本、聲音,MiniMax團隊的核心研發思路不在於找一個算法提升5%、10%的路徑,“如果能提升幾倍就一定要做出來,只提升5%就不太值得做。”
談及爲何一定要做文生視頻,閆俊傑認爲,本質在於人類每天消費的大部分內容是圖文和視頻,文字佔比不高。爲了有更高的用戶覆蓋度和使用度,唯一的辦法是輸出多模態內容,而不是單純輸出文字內容,一定要做多模態,這個路線是一以貫之的。
視頻生成大模型存在一定難度。閆俊傑解釋稱,視頻的工作複雜度比做文本更難,視頻的上下文文本天然很長,處理難度大。
其次,視頻量很大,例如5秒視頻有幾兆,100個字可能都不到1K,背後是幾千倍的存儲差距。
生成視頻模型的挑戰在於,之前基於文本建的這套底層基礎設施不適用於視頻生成,例如怎麼處理、清洗以及標註數據,這就意味着基礎設施也需要升級。
在當天的發佈會上,閆俊傑着重提及“快”。他認爲,長期看,進步越快的東西就越好。不管是做MOE還是Linear attention,還是其他探索,本質上還是讓同樣的效果模型變得更快。閆俊傑指出:“快才意味着同樣的算力(訓練內容)可以變得更好。”
當天,MiniMax開放平臺負責人魏偉業在活動中表示,當前,大模型的效果、成本和多模態還面臨挑戰。
第一,大模型有不可避免的幻覺,也會因爲對指令遵從和語言理解能力不足,導致輸出不符合預期,因此要堅持做更高、更快、更強的模型。
第二,去年到今年上半年,成本是制約很多企業用不起大模型的原因。
今年五月以來,大模型領域掀起價格戰,API一路降至“白菜價”。魏偉認爲,低成本能夠激發出更多應用場景的出現,未來API成本會再進一步降級。
第三,多模態會觸發出更多的應用場景,比如文本和語音的結合,能夠讓大模型更好地識別和表達情緒。語音和視頻的結合,能夠生成帶配音的短視頻和廣告片段。
當前,大模型領域存在很多非共識:到底要做toB(企業)還是toC(用戶)?國內市場還是做海外市場,Scaling Law(規模法則)能否延續?針對這些行業內普遍的問題,閆俊傑直言:儘管有很多挑戰,我們屬於最樂觀的公司,對技術進步、用戶、產品迭代效率都充滿樂觀。