美媒:中國新型“文生視頻”人工智能模型令人興奮
來源:環球時報
美國《麻省理工科技評論》6月19日文章,原題:我測試了一個令人興奮的中國新型“文生視頻”人工智能模型 人們可能還不熟悉“快手”,但這家中國企業剛達到一個重要里程碑:它發佈首款可供公衆免費測試的“文生視頻”生成式人工智能(AI)模型。6月6日,這個擁有6億多活躍用戶的短視頻平臺宣佈推出這款自主研發的新工具。它的名字叫“可靈”。
但與公衆在OpenAI試用4個月後仍無法訪問的Sora不同,可靈很快就開始讓人們親自試用該模型。筆者就是其中之一。還記得Sora發佈的令人印象深刻的演示視頻和形象,包括東京街頭景象、貓迅速穿過花園以及宇航員騎馬等場景嗎?我讓可靈也生成有關視頻。
生成的結果有幾個值得稱讚之處。這些視頻都沒偏離提示文字,且無論是攝像機的平移、樹葉的顫動,還是馬和宇航員的轉動方式,相關視頻畫面的物理特性似乎都是正確的。其中每段視頻大約需要3分鐘生成。這不是最快的,但完全可以接受。
這些視頻也有明顯缺點。它們看起來模糊,有時會忽略提示中的請求,且目前生成的視頻長度上限爲5秒,這導致視頻畫面的動態或複雜性大幅降低。不過,將這些結果與Sora的演示視頻進行對比並不公平,後者是OpenAI精心挑選後才向公衆發佈的,可能代表着超過其平均水平的文生視頻。相比之下,這些可靈視頻來自我首次嘗試給出的提示,我也很少鍵入像“照片級真實感”這樣的關鍵詞來微調結果。
可靈的工作方式與Sora類似。但與Sora相比,可靈具有一個關鍵優勢:快手是抖音在中國的最主要短視頻競爭對手,擁有龐大的視頻平臺和數億用戶,這些用戶共同上傳可以用來訓練可靈的海量視頻數據。可靈最大的侷限性可能是它(目前)只能生成5秒的視頻。AI專家說,視頻越長,就越有可能產生‘幻覺’或不一致的結果。
AI或將顛覆短視頻的內容創作場景,將在短期內使創作者受益。從長遠來看,快手、抖音等平臺有可能接管視頻製作,直接生成爲用戶定製的內容,從而減少平臺對明星創作者的依賴。相關技術可能還需要相當長時間才能發展到這個水平,但如今文生視頻工具領域越來越引人注目。據報道,快手的競爭對手字節跳動也在準備發佈生成式視頻工具。行業觀察人士說,到今年年底,將會有很多選擇。(作者Zeyi Yang,丁玎譯)