新算法讓機器人掌控物理接觸,開啓未來

賓夕法尼亞大學的工程師們研發出了一種新算法,能讓機器人實時對複雜的物理接觸作出反應,從而使自主機器人能夠去完成此前無法完成的任務,例如控制滑動物體的運動。

這種名爲共識互補控制(C3)的算法,或許會被證實是未來機器人的一個關鍵組成部分,其能把來自大型語言模型(LLM)等人工智能工具輸出的指令轉化爲恰當的行動。

“你的大型語言模型可能會說:‘去切個洋蔥。’” 機械工程與應用力學(MEAM)助理教授、通用機器人、自動化、傳感與感知(GRASP)實驗室的核心教員邁克爾·波薩(Michael Posa)說道。“你要怎樣移動手臂來固定洋蔥,握住刀,以正確的方式切開它,在必要時重新調整它的方向?”

機器人技術中最大的挑戰之一是控制,這是一個涵蓋性的術語,指的是對機器人執行器的智能化使用。執行器是機器人中能移動或控制其肢體的部件,比如電機或液壓系統。

“那種中低層次的推理在讓任何東西於物理世界中發揮作用這一方面確實是基礎,”波薩說道。

自 20 世紀 80 年代起,人工智能領域的專家就已經意識到,說來矛盾,人類最先學會的那些技能——比如如何操控物體、如何從一處移動至另一處,哪怕遭遇阻礙——恰恰是最難傳授給機器人的,反之亦然。

波薩表示:“機器人工作表現一直不錯,可一旦它們得開始接觸東西,就不行了。當下的人工智能機器能夠解決國際數學奧林匹克級別難度的數學問題,還能在國際象棋上戰勝專家。但它們的身體能力頂多纔跟兩三歲的孩子差不多。”

從本質上來說,這就意味着機器人每一次涉及觸摸某物的互動——比如拿起一個物體,再把它挪到別的地方——都得精心安排。波薩所在的動態自主和智能機器人(DAIR)實驗室的應屆博士畢業生威廉·楊稱:“關鍵挑戰在於接觸的順序。在所處環境中,你的手該放哪兒?你的腳又該放哪兒?”

當然啦,人類很少需要反覆琢磨自己是怎麼跟物體互動的。在一定程度上,機器人所面臨的挑戰在於,像拿起一個杯子這種看似簡單的事兒,實際上卻包含了衆多不同的選擇——從正確的接近角度,到恰當的用力大小。

“並非這些選擇中的每一個都跟周圍的選擇有很大差異,”波薩指出。但是,到目前爲止,還沒有算法能讓機器人評估所有這些選擇並實時做出適當的決定。

爲了解決這個問題,研究人員基本上設計了一種方法來幫助機器人“設想”與物體接觸時可能出現的不同可能性。波薩說:“通過想象觸摸物體的好處,您能在算法中獲取與該交互相對應的梯度。”

“然後,您可以應用某種基於梯度的算法風格,在解決 那個 問題的過程中,物理方面會隨着時間推移變得越來越準確,以至於您不只是在想象‘如果我觸摸它會怎樣?’,而是實際上計劃去觸摸它。”

在過去的一年裡,波薩和 DAIR 實驗室就這個主題撰寫了一系列獲獎論文,最近的一篇發佈於 arXiv 預印本服務器,楊是主要作者,該論文在荷蘭舉行的 2024 年機器人:科學與系統會議 上獲得了傑出學生論文獎。

那篇論文展示了 C3 是如何使機器人能夠實時控制滑動物體的。楊說:“在機器人技術中,滑動的控制是出了名的困難。從數學角度來說,這很難,但你還得依賴物體的反饋。”

但是,通過使用 C3,楊展示了一個機械臂如何能夠安全地操縱一個托盤,類似於餐廳服務員可能使用的那種。在錄製的實驗中,楊讓機械臂時而拿起放有咖啡杯、時而拿起未放咖啡杯的托盤並放下,還讓機械臂靠牆旋轉託盤。“以前的工作認爲,‘我們只是想避免滑動,’”楊說,“但該算法將滑動作爲機器人需要考慮的一種可能性。”

未來,波薩和他的團隊希望讓該算法在應對不同情況時更加強健,比如當機器人處理的物體的重量比預期的略重或略輕時,並將該項目擴展到 C3 目前無法處理的更開放式的場景。

“這是一個構建模塊,能夠從一個非常簡單的規範——讓這個部件到那邊去——將其提煉爲機器人實現這一目標所需的電機扭矩,”波薩說。“從一個非常、非常複雜、混亂的世界,到對任何給定任務都重要的關鍵對象集、特徵或動態屬性,這是我們感興趣的開放性問題。”