☰

谷歌DeepMind發佈Genie 2模型可一鍵生成超逼真3D互動世界

12月5日消息，美國當地時間週三，谷歌旗下人工智能研究機構DeepMind推出了一款新模型，能夠創造出“無窮無盡”且各具特色的3D世界。

這款模型名爲Genie 2，是DeepMind在今年早些時候推出的Genie模型的升級版。僅憑一張圖片和一段文字描述，例如“一個可愛的機器人置身於茂密的森林中”，Genie 2就能構建出一個交互式的實時場景。在這方面，它與李飛飛創立的World Labs以及以色列新興企業Decart所開發的模型有着異曲同工之妙。

DeepMind宣稱，Genie 2能夠生成“豐富多樣的3D世界”，用戶可通過鼠標或鍵盤在這些世界中自由跳躍、游泳等。經過視頻訓練，該模型能夠精準模擬物體的交互、動畫效果、照明、物理現象、反射效果以及“NPC”（非玩家角色）的行爲。

Genie 2所創造的許多模擬場景，其視覺效果堪比AAA級視頻遊戲，這很可能是因爲該模型的訓練數據中融入了衆多熱門遊戲的體驗。然而，與衆多人工智能實驗室一樣，DeepMind出於競爭壓力或其他考量，並未過多透露其數據來源及訓練方法的細節。

這項技術對知識產權的影響引發關注。作爲谷歌的子公司，DeepMind無疑能不受限制地訪問YouTube。而谷歌此前曾暗示，其協議允許使用YouTube視頻進行模型訓練。但問題是，Genie 2在製作過程中，是否無意間製作了它所“觀看”的視頻遊戲未經授權的複製品，恐怕只有法院才能給出最終裁決。

DeepMind透露，Genie 2具備從不同視角（如第一人稱視角與等距視角）生成連貫世界的能力，這些生成的世界可持續時間長達一分鐘，儘管多數情況下維持在10到20秒之間。

DeepMind團隊在博客文章中表示：“Genie 2能夠智能地根據鍵盤操作作出反應，準確識別角色並相應移動它。舉例來說，我們的模型能夠判斷方向鍵應控制機器人的移動，而非樹木或雲朵。”

衆多類似Genie 2的模型雖能模擬遊戲及3D環境，卻常面臨人造感、連貫性缺失及幻覺相關的挑戰。例如，Decart的《我的世界》模擬器Oasis便存在分辨率低、迅速“遺忘”關卡布局的問題。

相比之下，Genie 2能夠記憶模擬場景中未直接呈現的部分，並在它們重現時精準渲染，這一能力同樣體現在李飛飛World Labs的模型中。

然而，目前利用Genie 2製作的遊戲尚缺乏足夠的趣味性，因爲它們每分鐘都會清除玩家的進度。因此，DeepMind將Genie 2定位爲一種研究與創新工具，專門用於“互動體驗”的原型製作及AI智能體的評估。

DeepMind在博客中寫道：“得益於Genie 2卓越的泛化能力，概念藝術和圖紙得以輕鬆轉化爲完全互動的環境。藉助Genie 2，我們的研究人員能夠快速構建出豐富多樣的環境供AI智能體使用，進而生成訓練期間未遭遇過的評估任務，以檢驗智能體的應對能力。”

對於創意工作者，尤其是電子遊戲行業的從業者而言，這種技術可能讓他們喜憂參半。近期，《連線》雜誌的一項調查顯示，諸如動視暴雪等大公司正藉助人工智能技術來縮減成本、提升效率，並應對員工流失的問題。事實上，動視暴雪已裁汰了數十名員工。

儘管如此，谷歌在世界模型研究領域的投入正持續加大，這一領域有望成爲人工智能領域的下一個重大突破。去年10月，DeepMind成功招募了蒂姆·布魯克斯（Tim Brooks），他此前負責OpenAI視頻生成器Sora的開發工作，現負責視頻生成技術和世界模擬器的研發。

兩年前，DeepMind還從Meta挖來了蒂姆·羅克塔謝爾（Tim Rocktäschel），他因對《NetHack》等電子遊戲的“開放性”實驗而聞名。（小小）

谷歌DeepMind發佈Genie 2模型 可一鍵生成超逼真3D互動世界

相關資訊

谷歌DeepMind發佈Genie 2模型可一鍵生成超逼真3D互動世界