谷歌DeepMind發佈Genie 2模型 可一鍵生成超逼真3D互動世界
12月5日消息,美國當地時間週三,谷歌旗下人工智能研究機構DeepMind推出了一款新模型,能夠創造出“無窮無盡”且各具特色的3D世界。
這款模型名爲Genie 2,是DeepMind在今年早些時候推出的Genie模型的升級版。僅憑一張圖片和一段文字描述,例如“一個可愛的機器人置身於茂密的森林中”,Genie 2就能構建出一個交互式的實時場景。在這方面,它與李飛飛創立的World Labs以及以色列新興企業Decart所開發的模型有着異曲同工之妙。
DeepMind宣稱,Genie 2能夠生成“豐富多樣的3D世界”,用戶可通過鼠標或鍵盤在這些世界中自由跳躍、游泳等。經過視頻訓練,該模型能夠精準模擬物體的交互、動畫效果、照明、物理現象、反射效果以及“NPC”(非玩家角色)的行爲。
Genie 2所創造的許多模擬場景,其視覺效果堪比AAA級視頻遊戲,這很可能是因爲該模型的訓練數據中融入了衆多熱門遊戲的體驗。然而,與衆多人工智能實驗室一樣,DeepMind出於競爭壓力或其他考量,並未過多透露其數據來源及訓練方法的細節。
這項技術對知識產權的影響引發關注。作爲谷歌的子公司,DeepMind無疑能不受限制地訪問YouTube。而谷歌此前曾暗示,其協議允許使用YouTube視頻進行模型訓練。但問題是,Genie 2在製作過程中,是否無意間製作了它所“觀看”的視頻遊戲未經授權的複製品,恐怕只有法院才能給出最終裁決。
DeepMind透露,Genie 2具備從不同視角(如第一人稱視角與等距視角)生成連貫世界的能力,這些生成的世界可持續時間長達一分鐘,儘管多數情況下維持在10到20秒之間。
DeepMind團隊在博客文章中表示:“Genie 2能夠智能地根據鍵盤操作作出反應,準確識別角色並相應移動它。舉例來說,我們的模型能夠判斷方向鍵應控制機器人的移動,而非樹木或雲朵。”
衆多類似Genie 2的模型雖能模擬遊戲及3D環境,卻常面臨人造感、連貫性缺失及幻覺相關的挑戰。例如,Decart的《我的世界》模擬器Oasis便存在分辨率低、迅速“遺忘”關卡布局的問題。
相比之下,Genie 2能夠記憶模擬場景中未直接呈現的部分,並在它們重現時精準渲染,這一能力同樣體現在李飛飛World Labs的模型中。
然而,目前利用Genie 2製作的遊戲尚缺乏足夠的趣味性,因爲它們每分鐘都會清除玩家的進度。因此,DeepMind將Genie 2定位爲一種研究與創新工具,專門用於“互動體驗”的原型製作及AI智能體的評估。
DeepMind在博客中寫道:“得益於Genie 2卓越的泛化能力,概念藝術和圖紙得以輕鬆轉化爲完全互動的環境。藉助Genie 2,我們的研究人員能夠快速構建出豐富多樣的環境供AI智能體使用,進而生成訓練期間未遭遇過的評估任務,以檢驗智能體的應對能力。”
對於創意工作者,尤其是電子遊戲行業的從業者而言,這種技術可能讓他們喜憂參半。近期,《連線》雜誌的一項調查顯示,諸如動視暴雪等大公司正藉助人工智能技術來縮減成本、提升效率,並應對員工流失的問題。事實上,動視暴雪已裁汰了數十名員工。
儘管如此,谷歌在世界模型研究領域的投入正持續加大,這一領域有望成爲人工智能領域的下一個重大突破。去年10月,DeepMind成功招募了蒂姆·布魯克斯(Tim Brooks),他此前負責OpenAI視頻生成器Sora的開發工作,現負責視頻生成技術和世界模擬器的研發。
兩年前,DeepMind還從Meta挖來了蒂姆·羅克塔謝爾(Tim Rocktäschel),他因對《NetHack》等電子遊戲的“開放性”實驗而聞名。(小小)