AI創世紀|一句話發紅包、遠程操控電腦,AI接管人類設備真的要來了?

圖片來源:企業官方

藍鯨新聞11月29日訊(記者 朱儁熹)"幫我創建一個面對面羣聊,在羣聊裡發個一萬的紅包,數量爲一百個,名字爲‘AI給你發的第一個紅包’。"在11月29日舉辦的Agent OpenDay現場,智譜AI CEO張鵬對着手機裡的智能體AutoGLM發出以上語音指令。除了因現場同時進羣的人數過多,導致AutoGLM一時未能馬上加入羣聊外,數百位羣成員很快就成功領取到了微信紅包。

今年10月,國內大模型獨角獸智譜AI推出能夠模擬人類操作手機的自主智能體AutoGLM,並開啓內測。在最新的OpenDay活動上,智譜AI除了帶來升級後的AutoGLM,還發布了基於PC的自主智能體GLM-PC,主打能夠像人一樣操作計算機。

智譜AI表示,新升級的AutoGLM可以挑戰完成更復雜的任務。據張鵬現場演示,通過AutoGLM在美團App上採購火鍋食材時,該智能體能夠自主執行54步無打斷操作。在這一過程中,AutoGLM可以理解並記住複雜指令,在速度表現上也略快於人手動操作。

升級後的AutoGLM不再侷限於單一應用內的操作,而是支持跨App操作。例如,用戶可直接對AutoGLM輸入指令:"在美團和餓了麼上對比一點點的烏龍奶茶的價格哪個更便宜",它就會自主完成打開不同App、比價甚至下單購買等一系列操作。

最新發布的Auto產品GLM-PC則將交互終端進一步拓展至電腦端,智譜AI稱這是其GLM團隊"面向‘無人駕駛’PC的一次技術探索"。據官方介紹,目前第一階段GLM-PC的內測體驗場景包括髮送信息、參與會議、文檔處理、網頁搜索與總結、遠程和定時操作等。此外,還將於明年一季度推出隱形屏幕功能,讓人和GLM-PC能夠使用同一臺電腦工作,在提高協作效率的同時,又不會影響人類用戶使用物理屏幕。

在演示視頻中,當用戶下班後沒帶電腦,但領導要求發送電腦上的某份文件時,用戶就可以用手機給GLM-PC發消息來實現遠程遙控。GLM-PC能夠自動進行電腦操作,幫用戶找到併發送指定文件。但若涉及到最終發送等關鍵步驟,GLM-PC會彈出提醒窗口,待人工確認後纔會繼續執行操作。

張鵬表示,GLM-PC使用電腦的方式幾乎完全和人一樣。理論上,只要是爲人類設計的應用,GLM-PC在學習之後都能夠執行。它所基於的模型僅需視覺截圖作爲輸入,而不依賴HTML、API等傳統接口。因此,其能力上限更高,具備跨平臺、跨系統的泛化能力,可以應用到任意的圖形用戶界面。

"不過,由於PC的複雜程度,以及大家在PC完成的幾乎都是複雜任務,坦率的說,今天大模型的能力距離真正代替大家辦公還有一定距離。"張鵬補充稱,"GLM-PC在目前的內測體驗中,用戶仍需要輸入非常精準的指令。"

近來,Anthropic、OpenAI、谷歌等不少國外科技企業也瞄向了AI接管人類設備這一領域,已推出或正在開發相關AI產品。據智譜AutoGLM技術負責人劉瀟現場分享,在探索智能體的過程中,團隊發現AutoGLM智能體和OpenAI的推理模型o1從本質上服從同一套Scaling Law(擴展定律)。o1模型通過推理過程中的自我反饋監督來持續提升其性能,智能體則通過和環境進行交互,獲得來自環境的反饋和監督信號,滿足類似o1的規模擴展效應。

劉瀟表示,在o1 scaling的基礎上,還觀察到智能體存在的能力涌現。例如,隨着進一步的訓練和規模的擴展,AutoGLM能夠在一個月的時間內,從完成單應用、短距離任務進化到初步勝任跨應用、長距離任務。即使AutoGLM從未與微信小程序進行過任何交互式訓練,當下達"幫我在微信的Tims咖啡小程序裡下單柑橘美式"的指令,並給出一些關鍵步驟的建議時,AutoGLM依然能夠完成操作。

智譜AI稱,希望通過規模擴展,未來進一步提升AutoGLM的泛化能力,支持更廣泛的商業場景。其中一個重要的落地方向便是智能硬件,智譜希望將其智能體推廣到手機、電腦、汽車、眼鏡等各類終端設備上。過去半年以來,智譜已與榮耀、華碩、小鵬等衆多終端廠商達成合作,相關技術負責人也紛紛亮相此次OpenDay活動。