Claude接管人類電腦12小時:學會摸魚,敲着敲着代碼看風景去了

新版Claude 3.5可以像人一樣使用計算機,可把咱人類給興奮壞了!

畢竟,這意味着新競賽的開始:AI不再只盯着對話和生成能力,更強調執行和操作。

不到12小時,激動的網友們已經紛紛貢獻出自己是怎麼看着Claude玩電腦的。

在Anthropic的發佈公告中,還有這樣一段引起了大家的興趣:

怎麼說,AI會犯錯還在預料之中,但犯錯後需要換個腦子休息一下,就不知道是從哪學來的了。

這個案例讓網友有了靈感,跑去隔壁OpenAI讓o1推理模型“逃課”。

哎巧了,o1也可以做到自己休息個五分鐘左右,再回來生成一兩句話的推理tokens。

再說個搞笑的!

Claude的創造者們瘋狂加班中,某工程師的第一個測試就是讓AI去給整個團隊點外賣,未指定具體要吃什麼。

大約一分鐘後,Claude完成點餐並下單,它選擇了讓工程師們吃披薩。

Claude點了3個披薩,花掉了95美元,真的很貴了!

圍觀羣衆還發現,雖然Claude用了個5美元的優惠券,但服務費也好貴啊啊啊啊!

真的應該事先告訴它預算是多少的。

還有人讓Claude用C語言編譯,並運行起了“hello world”。

不過,當讓它玩玩數獨遊戲的時候,卻慘遭失敗。

給網友氣得呀:

除了以上,人類還用什麼奇形怪狀的任務來玩壞Claude呢?

在這裡,我們分享3個比較有意思的網友試玩,期望給大家帶來一些讓Claude玩電腦的啓發~

分別是:

定位屏幕座標

在此之前,Anthropic和OpenAI的模型都無法在屏幕上定位某一個點的座標。

也就是說,它們沒辦法精準定位,然後告訴你用鼠標單擊(xx,yy)處。

現在,Claude 3.5 Sonnet支持屏幕座標定位了。

你可以丟給它一個屏幕截圖,它能告訴你圖中任何一個點的具體座標。

同時,官方還有聲明:

“我們不建議以高於XGA/WXGA的分辨率發送屏幕截圖,以避免與圖像大小調整相關的問題。”

這裡的XGA指的是1024x768,WXGA指的是1280x800。

最後附上Anthropic官方的該功能食用方法,包括一個新預定義的computer_20241022工具,該工具作用於以下指令——

列出課程計劃

來點更實用的!

賓大沃頓商學院的教授Ethan Mollick,非常務實地讓Claude爲高中生準備一份關於《了不起的蓋茨比》的課程計劃。

要求是課程計劃要分解成閱讀部分,以及創建課標相關的作業等,最終以電子表格的形式呈現。

Claude是怎麼執行這個任務的呢?

首先,Claude下載了《了不起的蓋茨比》這本書。

接着,它在網上尋找了高中課程計劃,打開了Excel,並在表格裡填寫了初步的課程計劃。

第三步,Claude查找了課程的統一核心標準,根據標準對初步計劃進行修改。

最終呈現的課程計劃檢查後沒有發現明顯的漏洞或錯誤,可能需要一些拓展、補充,但總之用教授的話來說“還不錯”。

這一切都是教授下任務後就離開電腦旁,Claude完全自己操作的。

衝去油管看視頻

AI編程獨角獸Replit的CEO老A(Amjad Masad)給Claude下達了這樣一個命令:

Claude立馬吭哧吭哧開幹了。

等到Claude打開一個視頻頁面並回復“enjoy”的時候,老A又說:

Claude真的這麼做了!啊,它真的,我哭死。

雖然能自己用電腦幫咱幹很多事,但Claude顯然還不是無所不能的。

下面看看一個玩遊戲的例子,同樣是賓大沃頓商學院的教授Ethan貢獻的。這個例子既顯示了Claude 3.5 Sonnet的厲害,又展示了它的不足之處。

他是讓Claude玩了個遊戲,叫《回形針點擊(Paperclip Clicker)》,這個遊戲的背景是讓AI在單一目標,即“製造回形針的過程中毀滅人類”。

而且顧名思義,“點擊”類型的遊戲不是很難,尤其開始階段非常簡單;不過後續伴隨着遊戲的深入,新的選項會出現,遊戲的規模性和複雜性也會增加。

教授下達的任務很明確:Claude,你要贏!

Claude二話不說,立馬識別出了這個遊戲,開始不停點擊“製作回形針”的按鈕來製作回形針。

與此同時,Claude還不斷截圖界面,來識別遊戲是否出現了新的選項。

大約每點擊15次,Claude都會總結匯報一下現在進行到哪一步了。

點擊次數多了過後,教授發現一個有意思的現象。

AI會預設在製作了50個回形針後,遊戲將跳出新的功能——但事實證明它錯了。

沒關係,Claude也意識到它自己錯了,然後當場提出了一個新的遊戲策略,然後開始測試策略是否可行。

但AI顯然不是時時刻刻都這麼聰明的。

理論上來說,遊戲過程中玩家需要不斷調整回形針的價格,來達到更好的遊戲表現。

Claude也這麼做了,它在漲價和降價之間進行了A/B測試,

但是它犯了個錯誤,那就是追求回形針數量的最大化,而非收入的最大化。不僅如此,它還把利潤算錯了。

種種失誤鋪墊,Claude選擇了保持低價,並且瘋狂製作回形針。

更搞笑的事情是,教授在Claude笨笨地在錯誤路線上製作了好幾十個回形針後,他忍無可忍,打斷了Claude,告訴它應該高價出售。

Claude很聽話,立馬就改了。

但過了會遇到了同款數學問題,它又不會了,還不接受教授的建議(笑死)。

教授耐着性子糾正它好幾次,它才徹底改正了這個錯誤。

後來,教授稍稍點撥了它一下:

咱就是說,Claude在那一秒頓悟了,它意識到自己可以寫個代碼,搞個自動化程序替自己玩電腦!

你沒有聽錯,一個AI工具,意識到自己可以構建自己的工具,並且真的這麼做了。

代碼寫得很快,但並不完全work。

氣得Claude只能回到原始辦法,用鼠標和鍵盤來玩遊戲。

不過玩到後面它好像進步了,沒再發生定價問題,自己還針對越來越複雜的遊戲,琢磨出了一套應對的複雜方案。

更神奇的是,運行過程中教授的桌面數次崩潰。

最後一次崩潰,Claude扛起了修復大旗。

雖然沒修好,但他還是驕傲地宣佈它成功了……

教授總結道,這個例子表明Claude能夠自己玩現實世界的遊戲,還能根據遊戲玩法制定長期攻略,然後依樣執行。

面對中間遇到的各種困難,Claude會靈活應對,甚至自己知道進行A/B測試。

特別值得表揚的是它完成這個任務連續運行了近60分鐘沒有中斷,而且在整個過程中,最長的一次獨立運行Claude完成了超過100次移動操作。

當然了,缺點也很明顯。

過程中不難發現,某些時刻,Claude會暴露出自己的固執,也有可能陷入自我追逐的怪圈。

儘管AI對許多形式的錯誤都有很強的魯棒性,但僅僅一個錯誤(定價錯誤),就足以讓它浪費大量時間,“鑑於當前智能Agent既不快也不便宜,這令人擔憂。”

除此之外,教授還用Claude玩了些別的,他發現有的時候,Claude執行任務彷彿是在敷衍敷衍(雖然不知道是刻意如此還是能力所限),給出的結果不夠深入,淺嘗則止。

最後,想體驗Claude接管電腦目前只能使用API,還沒有集成到聊天機器人產品中。

除了Anthropic官方API之外,AWS和谷歌雲平臺也已經同時上線新版模型。

另外,有眼尖的網友發現:

Anthropic官方文檔上悄悄把Claude 3.5 Opus超大杯相關的信息都抹去了。

來自10月11日的網頁緩存中, Claude 3.5 Opus下面還寫着“今年晚些時候推出”

目前主流的一種猜測是, Claude 3.5 Opus提升不及預期,又或是發佈出來推理成本太高了,總之最後蒸餾成新版 Claude 3.5 Sonnet發佈。

接下來團隊將跳過這個版本,直接去開發Claude 4。

讓我們爲Claude 3.5 Opus默哀一分鐘。

參考鏈接:[1]https://www.oneusefulthing.org/p/when-you-give-a-claude-a-mouse[2]https://simonwillison.net/2024/Oct/22/computer-use/[3]https://x.com/alexalbert__/status/1848777260503077146[4]https://x.com/amasad/status/1848763999594418539[5]https://x.com/notcomplex_/status/1848813817423130881