Claude接管人類電腦編程,程序員沸騰!OpenAI反擊,智能體大戰一觸即發

新智元報道

編輯:桃子 好睏

【新智元導讀】AI接管人類電腦,未來已來!Claude自主操控電腦,從編程到科研無所不能,代表着萬能API。另一邊,OpenAI內部加急研發多智能體AI,已經有了雛形。

AI像人一樣操作電腦,已然成爲下一個前沿。

兩天前,Anthropic進化版Claude 3.5 Sonnet首次實現自主操控電腦屏幕、移動光標、完成任務,驚豔了所有人。

當時,Anthropic開發者關係負責人稱,「『計算機使用』是萬能的API,它代表着全新人機交互範式的第一步」。

拿到測試資格的網友們,瘋狂體驗了這項「超能力」。

甚至,就連初創公司CEO對此讚不絕口,AI智能體已經來臨,你現在可以建立AI軍隊爲你工作。

在Anthropic加速佈局智能體未來同時,OpenAI似乎也感受到了緊迫感。外媒最新爆料稱,OpenAI內部正開發新品來自動化複雜的軟件編程任務。

恰在昨天,OpenAI研究科學家、德撲之父在TED活動中表示,「自己對構建o1失去信心,正在OpenAI組建多智能體團隊」。

這意味着,一場全新的競賽即將開始,AI不再僅僅是對話生成,而應該去執行和操作。

Claude接管人類電腦,科研求職編碼一鍵通

那些上手Claude計算機使用能力的開發者們,根本停不下來創作。

從複雜的編碼任務到深入研究,再到收集 「零散」的信息,許多令人驚歎的典型案例誕生了。

畢竟是自家首發的,Anthropic開發者關係負責人Alex Albert先了打個樣。

他先用Claude計算機和bash工具,在線下載一個隨機數據集,然後安裝sklearn,在數據集上訓練一個簡單的分類器。

最後,在網頁上就得到了分類器結果。

這些過程,不到5分鐘的時間就完成了。

其中用到的提示,他也貢獻出來了:

一位開發者已經開始讓Claude幫自己自主做科研了。

驗證「你是不是人」,Claude可以代勞了。

想要Claude控制你的電腦,只需要:

搜索YouTube視頻,並跳過廣告。

Claude一頓操作猛如虎,以後視頻內置廣告,通通交給它了。

打工人求職申請表填寫,Claude也能勝任。這不,下面這位開發者小哥已經讓AI自動申請Anthropic職位了。

進化版(左)和舊版(右)Claude 3.5 Sonnet在「我的世界」中構建的樣子,令人印象深刻。

新升級後的Claude 3.5 Sonnet將如何影響「多智能體社會」的進步?

智能體研究初創公司Altera Al給出了答案,新模型是對長時間自主性的最大升級。我們的25個智能體在「我的世界」中合作,在20分鐘內收集了超過40%的不同物品。

分析工具

順便提一句,Claude今天還重磅推出了可以編寫和運行代碼「分析工具」,爲1024開發者們送上大福利。

目前,這一功能已在Claude中上線。

假設讓Claude繪製銷售渠道進展的直觀圖,它能自主分析數據寫代碼,並給出要求的可視化圖。

然後,你可以在Artifacts中,可以詳細查看細分項的數據。

AI智能體競賽打響,Anthropic搶跑

雖然計算機使用工具並不完美,但它代表了Anthropic在AI中的一種願景:

讓Claude像人一樣,看懂屏幕自主操作現有軟件,完成各種複雜的任務。

這項能力背後的工作原理是:Claude先對屏幕截圖,確定需要採取的行動,然後執行這些行行動。然後,再次截圖決定下一步應該做什麼。

暢想一下,如果智能體能夠直接查看屏幕內容而無需依賴輔助功能,或查看底層代碼的AI軟件,可能會開啓大量新機遇。

比如,當你搭建網站時,如果按鈕中的文字意外超出按鈕邊界,AI智能直接看到後修復了這個問題,就省去了查看底層代碼倒推步驟。

再舉個栗子,當前網站製作者,已經非常巧妙地隱藏網站上廣告的HTML代碼。

這使得基於AI的廣告攔截軟件更難分析代碼,並確定需要刪除什麼來去除廣告。

但是,能夠直接看到廣告本身的「計算機使用智能體」會發現這項任務容易得多。

不過,這項技術帶來弊端首先是「截圖操作」成本太高,而且AI往往會假設它的操作已經成功執行。

「當它獲取新的截圖時,它已經不知道自己在操作流程中處於哪個階段了」

另一方面,就是隱私問題了。

此前,已經有公司禁止員工使用ChatGPT、GitHub Copilot等編程工具,害怕不小心向模型開發商泄露專有信息或代碼。

OpenAI急了,加碼AI年底上新

在勁敵Anthropic連連發布重壓下,OpenAI其實早已開啓了新的佈局。

還記得幾天前,Sam Altman突然冒泡,「下個月是ChatGPT的第二個生日,我們應該送它什麼生日禮物呢」?

當時,一大波網友寫下自己的願望清單。

就在剛剛,有一條被傳瘋了的報道稱,OpenAI計劃在12月,解禁新一代大模型,代號爲Orion。

根據爆料,Orion將使用o1合成的數據進行訓練,並會在ChatGPT兩週年前後發佈。

但與GPT-4o和o1不同的是,它最初不會通過ChatGPT上線,而是 先授予與OpenAI密切合作的公司訪問權限(比如微軟),方便他們構建自己的產品和功能。

不過,網友們的「美夢」還沒做多久,Altman就站出來闢謠了:通通都是fake news!

在軟件開發上,OpenAI目前正在開發多個產品和功能:

知情人士透露,OpenAI這款產品能夠處理原本需要人類耗時數小時乃至數天的軟件工程任務,還能據客戶的指令自動編寫和執行復雜應用程序的代碼。

不過,具體發佈時間還未確定。

畢竟,代碼開發是OpenAI大語言模型的早期應用場景之一,主要是因爲AI生成的代碼可以快速驗證其可用性。

2021年開始,微軟GitHub團隊利用OpenAI大模型推出AI Copilot,爲程序員提供實時代碼建議。

緊接着,ChatGPT在22年年底面世,提供一個更加易用、免費的替代方案,迅速走紅。

隨後,OpenAI成功說服數百萬程序員付費使用「升級版」ChatGPT。

他們可以比GitHub Copilot更早體驗升級版LLM,並能通過對話式指令處理各類開發任務。正因此,報道稱這些功能讓OpenAI相關訂閱產品的年收入有望達到約30億美金。

在智能體佈局方面,OpenAI內部正組建一支多智能體團隊,下一步可能傾向於智能體領域。

前段時間,他們發佈的多智能體框架Swarm,也是引發了AI社區的關注。

內部研究助手

據透露,OpenAI已經開發出了一款能夠幫助提升工作效率的「內部研究助手」,並且獲得了研究人員的一致好評。

其中的功能,就包括爲AI模型相關的實驗生成代碼。

這款內部工具似乎是朝着開發能夠自主進行AI研究的系統邁出的一步——這種能力不但需要編程技能,而且還需要具備爲新實驗提出想法和腦洞等能力。

OpenAI的領導層已公開表示,這一目標可能會在未來幾年內實現。

另外,知情人士透露,OpenAI正在考慮開發升級版Canvas,這是一款對標Anthropic Artifacts的工具。

它能夠實現和ChatGPT對話同時,在新的畫布中協作,不論是編程還是創作,皆可互動。

就代碼方面,在Canvas中用戶能夠讓AI一鍵審查代碼、修改bug等,幫助理解現有的代碼基礎和項目類型。

不過,他們還需要進行將代碼複製粘貼到chatbot中,這一繁瑣操作。

OpenAI所希望的是,能夠推出更通用的AI智能體,類似於Anthropic發佈「計算機使用智能體」,可以接管人類電腦處理代碼以外更廣泛的任務。

目前,OpenAI已在內部展示了一個AI智能體的初步版本,能夠通過用戶的計算機完成在線訂餐等任務。

其實,Claude已經實現了在線點餐的能力

當遇到編程或應用開發難題時,這個AI智能體還能夠自動查詢網絡資源尋求解決方案。

如今在AI編程領域,OpenAI已處於守勢,曾經獨佔鰲頭的局勢正在改變。

現在,面對這個最危險的競爭對手Anthropic,它確實該做點什麼了...

參考資料:

https://x.com/JeremyDanielFox/status/1849471327075270707

https://x.com/AnthropicAI/status/1849466471556038752

https://venturebeat.com/ai/anthropics-agentic-computer-use-is-giving-people-superpowers/

https://www.theverge.com/2024/10/24/24278999/openai-plans-orion-ai-model-release-december

https://www.thariq.io/blog/claudecomputer/