谷歌7大模型22項AI大招轟炸!70秒視頻生成、Gemini安卓合體、200萬tokens上下文

智東西作者 智東西編輯部

智東西5月15日報道,今日凌晨,在一年一度的谷歌I/O開發者大會上,谷歌幹了一場AI硬仗!

時長不到2小時的開幕式期間,谷歌CEO桑達爾·皮查伊攜一衆谷歌高管總共提到121次“AI”。谷歌DeepMind的聯合創始人兼CEO戴密斯·哈薩比斯首次在I/O大會上發表演講,順序僅次於皮查伊,足見AI大模型已經成谷歌的頭等大事。

在昨天OpenAI發動奇襲、推出幹掉傳統語音助手的旗艦模型GPT-4o後,作爲“全球AI一哥+搜索一哥”的谷歌,勢必得扳回一城,搏一搏誰纔是AI賽道的頭號“大模王”。

這次,谷歌連珠炮般甩出了22項AI大招,包括公佈200萬tokens超長上下文Gemini 1.5 Pro進階版、Gemini 1.5 Flash輕量級模型、通用AI Agent、高質量文生圖模型Imagen 3、AI音樂創作工具Music AI Sandbox、70秒視頻生成模型Veo、首個視覺語言開放模型PaliGemma等多款模型,還劇透了下一代Gemma 2大模型。

Veo生成視頻的部分片段:

其他大招包括第六代TPU、AI基礎設施、AI搜索新功能、Google Workspace應用Gemini功能、Gemini Live多模態功能、Gemini定製功能、Gemini Advanced、畫圈即搜功能、Gemini Nano新功能、安卓Gemini合體、AI輔助紅隊技術、擴展和開源SynthID文本水印等。

谷歌還展示了一系列AI系統,包括將視覺和語言轉化爲機器人行動的RT-2、瀏覽複雜虛擬3D環境的SIMA、解決奧數問題的AlphaGeometry。

發佈會開場,皮查伊稱目前有超150萬開發人員在使用Gemini模型,谷歌擁有20億用戶的產品都在使用Gemini,谷歌推出安卓和iOS上可用的應用程序直接與Gemini互動,3個月內已有超過100萬人註冊嘗試。

谷歌今天的諸多AI大招還有哪些精彩細節,這些技術又將如何深度影響產業,我們將帶你一文看盡。

一、未來通用AI Agent:日常生活隨時答疑解惑的超級助手

昨天OpenAI果然是有預謀的精準狙擊,率先亮出聊天絲滑宛如真人、具有炫酷實時視頻理解能力的旗艦模型GPT-4o,導致今天谷歌展示的未來AI助手Project Astra演示有點兒眼熟:

//oss.zhidx.com/uploads/2024/05/6643a8453c536_6643a84538632_6643a84538609_yW3i2_wSWGWGVzo.mp4

演示者打開手機攝像頭,邊走邊問攝像頭捕捉到的現實場景中的問題。

比如要求“看到能發出聲音的東西就告訴我”,Gemini就會給出準確描述:“我看到一個音響發出聲音。”接着你可以在手機屏幕上畫出紅色箭頭,追問“音響的這部分叫什麼”,Gemini立即回覆說這是“高頻揚聲器”並解釋它的用途。

再比如要求Gemini給出創造性的頭韻體,它隨即根據畫面中的蠟筆給出回答:“Creative crayons color cheerfully. They certainly craft colorful creations.”

實時解答代碼同樣不在話下。

甚至掃一眼周圍環境,Gemini就能推斷出你住在哪個小區。

找不到東西也可以請求Gemini的幫助,問問它有沒有看見自己的眼鏡在哪兒,Gemini立即發現它在桌面上靠近一個紅蘋果的地方。

你還能直接現場板書,問在這裡可以添加什麼來使得系統更快,Gemini回覆說“在服務器和數據庫之間添加緩存可以提高速度”。

此外,問它看到這個畫面能想起什麼,Gemini能瞬間理解它指的是“薛定諤的貓”。

讓它給小狗和老虎玩偶的組合起個樂隊名,Gemini給出的建議是“金色條紋”。

二、8大AI模型/工具炸場!最強文生圖、70秒視頻生成、200萬tokens超長上下文

1、Veo:全新視頻生成模型,只需一個文本、圖像或視頻提示,就能製作和編輯70秒以上不同視覺風格的高質量1080p視頻。

OpenAI發佈Sora後,視頻大模型的熱度就一直居高不下,今天谷歌的Veo也算是正面硬剛Sora了。

用戶可以自定義各種風格模式,還能通過點擊增長時間,視頻時長可以超過1分鐘。

從Veo生成的視頻中我們可以看到,AI對空間中的物體關係是有理解的。比如車輛是如何在道路上行駛的,車輛之間的位置關係等等。

//oss.zhidx.com/uploads/2024/05/6643c76e0279d_6643c76df2882_6643c76df285b_X3qIBHwsfzPaL8xW.mp4

同時,Veo生成的視頻鏡頭有不錯的一致性,人、動物、物體的移動顯得比較真實、自然。

谷歌說,Veo是他們在視頻生成領域技術的集大成製作,包含了多年來谷歌開發的生成查詢網絡(GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet和Lumiere等各類技術。

值得一提的是,Veo還能理解很多電影術語,比如“時光倒流(Timelapse)”。

在演示視頻中,電影導演也用到了Veo,Veo幫他們把靈感變成現實,電影導演說,AI可以幫他們快速發現構思中的錯誤並快速糾正,提高效率。

谷歌稱,實現這些,需要讓AI模擬世界的物理法則,這是很關鍵的。

用戶可加入實驗室等待名單,在新實驗工具VideoFX中嘗試。

2、Imagen 3:谷歌迄今最高質量的文生圖模型,能更好理解文本,創造出逼真圖像,能從草圖快速生成高分辨率圖像。谷歌自信地說Imagen 3是目前最強大的圖像生成模型。

Imagen 3生成的圖像可以達到“數毛”級別,具備非常多的畫面細節,同時其光影細節也非常震撼。

Imagen 3可以像人一樣理解世界,可以理解文字中的信息對應圖像中的哪一部分,並且具備上下文理解能力。

Imagen 3可以更好地理解自然語言,理解提示文字背後的意圖,比如它可以理解人物照片中的背景虛化效果、人物跟背景中植物和建築的關係。

3、Music AI Sandbox:AI音樂創作工具,可以改變音樂的創作方式,谷歌與音樂家、詞曲作者和製作人密切合作來幫助設計和測試這款工具。

在生成式音樂創作方面,谷歌通過Music AI Sandbox跟音樂家合作,音樂家可以直接把一段哼唱或者彈奏的靈感片段發給AI,生成一首歌或者一段真正的旋律。

音樂家說,AI就像一個朋友,讓你試試這個、試試那個,這可以解放他們的創造力,讓他們更高效地創作音樂。

4、Gemini 1.5 Pro進階版:多模態,上下文窗口擴展至200萬個token,改進代碼生成、邏輯推理和規劃、多輪對話、音頻與圖像理解能力,支持35種語言,面向全球開放。

上下文擴展到200萬個tokens,意味着它能夠處理1500頁PDF、30000行代碼或是1小時的視頻。Gemini 1.5 Pro在翻譯、編碼、推理等方面,可處理更廣泛、更復雜的任務。

皮查伊宣佈把Gemini 1.5 Pro的進階版開放給全球開發者使用。

Gemini 1.5 Pro即日起面向谷歌Workspace Labs進行開放,支持用戶在工作場景中獲得更多智能功能。

皮查伊談道,多模態+上下文可以解鎖不少新功能。比如基於Gemini在谷歌Gmail郵箱中搜索內容,人們可以問Gemini“小朋友最近在學校做什麼?”,Gemini就會去識別相關郵件及附件,給出一個關鍵要點的列表。

現場谷歌演示了NotebookLM的音頻概述功能,用戶只需將文本資料輸入進去,該軟件即可基於Gemini Pro 1.5能力,生成豐富的音頻內容素材,就像整合成一個課本一樣,互動性、沉浸性較高。

5、Gemini 1.5 Flash:輕量級模型,針對低延遲和低成本任務(聊天應用、從長文檔提取數據等)進行了優化,成本效益更高,上下文窗口達100萬個token。

Gemini 1.5 Flash模型,相比此前的Gemini 1.5 Pro,該模型的特點是輕量級,支持快速、多模態、長上下文的推理。

價格方面,Gemini 1.5 Pro爲7美元/100萬tokens,對於128k以下的輸入,將降價50%至3.5美元/100萬tokens;Gemini 1.5 Flash的價格爲0.35美元/100萬tokens。

Gemini 1.5 Pro和Gemini 1.5 Flash這兩款型號的模型現已在200多個國家和地區提供預覽版,並將於6月全面上市。

6、PaliGemma:谷歌首個視覺語言開放模型,Gemma系列型號在輕量級7B和2B尺寸方面將提供行業領先的性能。

谷歌此前於2月推出開源模型Gemma,包含7B、2B兩種參數規模,在各大開源社區下載量已累計數百萬次。

今天,谷歌發佈其首個視覺語言開放模型PaliGemma,基於SigLIP視覺模型和Gemma語言模型等開放組件構建,用於在各種視覺語言任務上實現一流的微調性能,包括圖像和短視頻字幕、視覺問答、理解圖像中的文本、對象檢測和對象分割等。

7、Gemma 2搶先看:將在未來幾周正式發佈一個有270億個參數的模型版本。Gemma 2 27B性能媲美Llama 3 70B,尺寸不到Llama 3 70B的一半,可在NVIDIA GPUs或Vertex AI單個TPU主機上運行。

Gemma 2還在進行預訓練。下圖展示了最新的Gemma 2檢查點的性能以及基準預訓練指標。

8、LearnLM:基於Gemini的新系列模型,對學習進行了微調,應用教育研究使谷歌搜索、Gemini、YouTube等產品更加個性化、更活躍、更吸引學習者,將在未來幾個月發佈。

三、AI搜索走向多模態!發佈最強AI安卓系統,手機上就能圈圖提問讀文檔

1、AI搜索:到今年年底,谷歌搜索的AI概覽將超過10億人。谷歌搜索將很快推出多輪推理能力,可將複雜問題分解處理,將原本需要幾分鐘甚至幾個小時的研究壓縮到在幾秒鐘內完成,還將支持在搜索中對視頻提問。

皮查伊宣佈,谷歌即日起開始向每位美國用戶推出基於Gemini改進的搜索體驗,本週將向更多國家開放。

在谷歌照片方面,Gemini讓照片搜索變得更容易。假設用戶在停車場準備付款但想不起自己的車牌號,他可以簡單地詢問Gemini,基於之前拍的照片告訴用戶車牌號碼。

基於此谷歌宣佈推出AI Overviews工具,將陸續面向美國及各國用戶開放。

谷歌AI Overviews功能相比傳統搜索引擎的結果,其將爲用戶呈現出完整的包括觀點、見解、鏈接的答案。

谷歌搜索負責人Liz Reid強調,谷歌的AI搜索概述有三大獨特優勢:實時信息、排名和質量體系、Gemini模型能力。

今天起,谷歌AI搜索概述將在美國全面推出,後續推廣到更多國家和地區,在今年內覆蓋10億用戶。

Reid稱,谷歌引入多步推理功能(Multi-step reasoning),把大問題分解爲小部分,並判斷優先順序。

例如,用戶想找一個合適的普拉提工作室,需要同時考慮時間、價格、距離等因素。用戶可以在谷歌搜索輸入:在波士頓找到最好的瑜伽工作室,並顯示優惠詳情、從我家過去的步行時間。

谷歌搜索將提煉整合出這些信息,並呈現在AI搜索概述中,爲用戶節省數個小時的時間。這一功能也適合用在出行、聚會等規劃上,或是餐飲計劃的定製等。

例如“爲團隊定製一個三天的餐飲計劃”,AI搜索概述不僅能提供各類型的食譜,還能直接將食譜中用到的食材等導出成購物清單,這意味着用戶僅需提問,就能將所需的一切加入購物車。

此外,谷歌搜索還將很快推出視頻搜索功能。例如可以通過拍攝電唱機,來獲取故障排除相關的AI搜索概述。

2、Google Workspace應用:側邊面板可使用Gemini 1.5 Pro模型,將使跨應用程序的工作變得更加容易,例如在Gmail中識別收據並在Drive和Sheets中組織收據,還可以通過數據問答讓Gemini幫你分析開支。

AI在我們的日常辦公中能有什麼妙用,這次谷歌在Workspace中增加了不少AI重磅新功能。

在郵件應用中,Gemini可以根據我們的需求總結郵件中的信息,比如家裡屋頂漏水了,Gemini可以幫你找到所有修復屋頂的公司發給你的郵件,按照各個公司的報價、可以服務的時間進對比。

Gemini可以找到價格相對合適,上門服務時間最快的合同商,我們確定後,Gemini還可以提供郵件回覆建議。

值得一提的是,Gemini是有理解語境能力的,AI知道之前的郵件中都說了什麼。

更進一步,在郵件應用中,Gemini還可以幫你追蹤所有訂單、相關收據,把這些郵件進行歸納整理,放到一個文件夾裡,然後把其中關鍵信息整理進表格裡。

用戶可以直接選擇自動化工作流,後面所有相關訂單郵件都會放到文件夾裡,關鍵信息也會自動整理進表格。

我們還可以直接問Gemini“我的錢都花在哪裡了?”Gemini可以直接用圖表給你展示出來,讓你清清楚楚地知道自己哪裡花銷最大。

此外,在公司辦公協作場景中,谷歌還推出了一個“AI虛擬員工”功能,可以說是打造了一個“最強AI實習生”。

這個AI虛擬員工會有一個Workspace賬號,用戶可以對其自由命名、指派任務。

▲右側爲用戶建立的AI虛擬員工Chip

我們可以把這個AI虛擬員工放在各個工作羣組裡,它可以在各個羣聊中提取信息,找到關鍵信息。

值得一提的是,這個AI員工可以有“集體記憶”,可以總結之前的一些工作重點,還可以把總結髮送給相關人員。谷歌高管稱,以前需要幾個小時做的,現在AI幾分鐘的就可以做好。

可以說,這着實是最強AI企業實習生了。

3、Gemini Live:今年夏季將擴展Gemini的多模態功能,包括使用你的聲音進行深入的雙向對話的能力。

在Gemini APP中,谷歌推出Gemini Live功能,用戶可通過文本、語音或影像多種方式進行交互,直接與大模型進行對話,並能夠隨時打斷,可以打開攝像頭使其“看到”周圍的世界並實時響應。

Gemini Live將在未來幾個月內,優先向Gemini Advanced訂閱用戶推出。

4、Gems:Gemini定製功能,無論你需要一位瑜伽閨蜜還是微積分導師,都可以定製專屬的Gemini來以特定方式進行互動。

用戶可以通過簡單的指令打造個人專家,例如寫作教練、瑜伽老師、代碼檢查器等。在構建過程中,用戶可直接選擇Google Drive中的文件上傳。

Gemini還將連接更多谷歌工具,包括日曆、任務、郵件等,在這些應用中用戶能夠通過簡單的提示獲取AI體驗。

5、Gemini Advanced:今年夏季將新增旅行計劃功能,支持創建個性化的行程;即日起支持訪問Gemini 1.5 Pro,具有100萬個tokens上下文窗口,可上傳多達1500頁的文件;接下來幾周內新增數據分析功能,上傳電子表格即可更快分析數據、製作圖表、發現見解。

6、畫圈即搜功能:在你的手機或平板電腦上圈出複雜的物理問題,就能獲得一步一步的指導,學習如何解決問題。

AI搜索方面,畫圈即搜功能大家已經在三星的手機上看過了,比如畫圈找心儀的商品信息。

今天谷歌給畫圈即搜增加了新能力,在學習過程中,用戶可以直接把不懂的問題圈出來,Gemini就會給用戶一步步的問題解答,可以說搖身一變成爲最強輔導老師——谷歌圈讀機,哪裡不會圈哪裡。

谷歌稱,畫圈即搜後續面可以處理公式、複雜圖表,目前已經應用在1億臺設備上,谷歌計劃把這個數字在年底翻倍。

7、安卓版Gemini新功能:推出Gemini app,安卓系統上的Gemini變得更有幫助,更有環境意識;今年晚些時候支持將生成的圖像拖放到Google Messages和Gmail中,還支持用戶直接在設備上詢問有關YouTube視頻和PDF文件的問題。

谷歌要怎麼做手機上的AI,今天答案有了:谷歌要做“系統級AI”,把Gemini用在安卓系統底層。這對於產業的重要意義不言而喻,所有安卓手機,可能都會享受到這一“AI福利”。

谷歌說,他們要讓安卓成爲體驗谷歌AI的最強移動平臺。

對於“系統級AI”,谷歌進行了重點解讀。谷歌希望讓Gemini成爲安卓體驗的基礎。

所以區別在哪?Gemini在系統級層面運行,因此用戶不需要打開應用。同時Gemini有了上下文感知能力,它知道你在幹什麼,可以成爲更有用的助手。

比如,Gemini可以幫用戶在聊天中生成有趣的表情包圖片,Gemini可以感知到用戶在看視頻,彈出提示,詢問是不是想了解關於這個視頻的問題,用戶可以直接詢問視頻中的細節,Gemini可以直接從視頻中找到答案。

比如當朋友發過來一個關於匹克球規則的84頁的PDF,Gemini會檢測到,並詢問你是不是要了解這個PDF,你可以把PDF直接甩給Gemini,它就會成爲一個匹克球的“運動專家”,用戶問什麼規則,它都可以解答。

這種系統級AI具備上下文感知能力,可以提供更即的時幫助。谷歌特別強調說,這些體驗只在安卓上可以用——Only on Android。

這下,壓力給到了蘋果。

谷歌把AI直接嵌入到了操作系統中,稱這是首個內置端側AI的移動操作系統。

谷歌預告稱,今年晚些時候,Gemini Nano的功能會在Pixel系列手機上落地。

對於視障人士,TalkBack讀屏功能,此次升級了多模態能力,可以更加清晰的描述一張圖片,比如服裝的款式,這些功能都是端側實現的,不需要聯網。

谷歌還發布了端側AI的另一個應用,預防電話詐騙。手機發現用戶接打有風險的陌生的來電時,會直接發出警告,告訴用戶這個電話可能是個詐騙電話。

所以谷歌要做什麼,谷歌要做的就是以Gemini爲核心的安卓。

這些功能會在安卓15 Beta 2版本中落地。

8、Gemini Nano新功能:多模態功能很快將上線,使手機可以通過文本、視覺、聲音和口語來理解世界;今年晚些時候安卓輔助功能TalkBack將在Gemini Nano上得到提升,圖像描述將更清晰、更豐富,幫助低視力和盲人用戶通過語音反饋更好地導航他們的手機;安卓一旦檢測到可疑活動,就會在通話過程中發出警告,比如被要求提供社會安全號碼和銀行信息。

四、第六代TPU芯片來了!訓練agents提高AI安全

1、第六代TPU:谷歌迄今性能最高、最節能的TPU,相比上一代TPU v5e,每顆芯片的峰值計算性能提高了4.7倍,節能67%以上,HBM容量和帶寬提高1倍,Interchip Interconnect帶寬提高1倍,可在單個高帶寬、低延遲POD中擴展到256個TPU,還配備了專門用於處理高級排名和推薦工作負載中常見的超大型嵌入的專用加速器第三代SparseCore。

Trillium配備的第三代SparseCore加速器,可以更快地訓練基礎模型,並提供更低的延遲和成本。

Trillium在單個高帶寬、低延遲pod中可擴展至256個TPU,利用Multislice技術和Titanium 智能處理單元(IPU),Trillium還可以擴展到數百個pod,通過每秒數萬比特的數據中心網絡互聯,將數萬個芯片連接到樓宇級超級計算機中。

第六代TPU Trillium將於今年晚些時候上市,此外Pichai還透露,谷歌將與英偉達合作,在2025年推出Blackwell平臺。

2、AI基礎設施:從AI超算到跨越200多英里陸地和海底光纖的海底電纜網絡,谷歌持續投資推進AI創新,投資世界一流的基礎設施。

3、AI輔助紅隊:使用谷歌DeepMind的AlphaGo開發的一種新技術,訓練agents相互競爭,提高紅隊能力,這有助於對抗提示並限制有問題的輸出。

4、擴展SynthID水印功能:谷歌去年推出的SynthID爲AI生成的圖像和音頻添加了難以察覺的水印,使它們更易區分,今天谷歌將SynthID擴展到Gemini應用和web體驗中的文本輸出,並在全新視頻生成模型Veo中對視頻進行水印。接下來幾個月裡還將開源用於文本水印的SynthID。

▲用於視頻水印的SynthID標記生成的視頻的每一幀

5、擴展負責任的生成式AI工具包:通過發佈開源的大語言模型比較器(一種新的交互式和可視化工具),幫助開發人員進行更健壯的模型評估,有效並行評估模型質量與安全性。

結語:生成式AI落地酣戰在即!谷歌用Gemini重塑搜索

“谷歌搜索是人類浩瀚好奇心的生成式AI——這是我們搜索領域最激動人心的篇章。”皮查伊在谷歌I/O大會上激情洋溢地說。

在OpenAI ChatGPT點燃生成式AI的熱焰時,昔日AI老大哥谷歌因爲反應遲鈍外加“翻車”事件,淪爲了頂尖AI大模型競賽裡的追趕者。隨後谷歌重燃AI鬥志,不斷打磨Gemini大模型,並在本屆I/O大會上從“AI軍火庫”中狂掏武器秀實力。

無論是包括Gemma 2、Gemini 1.5 Flash、Imagen 3、Veo等新模型在內的一系列創新,通過文本、語音、視頻、圖片等多模態的搜索方式升級,還是爲下一代AI模型與agents提供更快、更低延遲訓練和服務動力的定製AI專用芯片與基礎設施,谷歌披露了這一系列進展,都彰顯出巨頭雄厚的技術實力和廣泛的應用市場。

在激烈的生成式AI競賽中,OpenAI並非一騎絕塵,最終贏家是誰還有相當多的變數。