朱玉可團隊新作:看一眼就能模仿,大模型讓機器人輕鬆學會撒鹽

機器之心報道

編輯:杜偉、Panda

在人形機器人領域,有一個非常值錢的問題:既然人形機器人的樣子與人類類似,那麼它們能使用網絡視頻等數據進行學習和訓練嗎?

如果可以,那考慮到網絡視頻的龐大規模,機器人就再也不用擔心沒有學習資源了。

近日,德克薩斯大學奧斯汀分校和 NVIDIA Research 的朱玉可團隊公佈了他們的一篇 CoRL 2024 oral 論文,其中提出了一種名爲 OKAMI 的方法,可基於單個 RGB-D 視頻生成操作規劃並推斷執行策略。

可以看到,機器人在看過人類演示者向袋子中裝東西后,也學會了以同樣的動作向袋子中裝東西。不僅如此,OKAMI 還能讓人形機器人看一眼演示視頻就輕鬆學會撒鹽、將玩具放進籃子和合上筆記本電腦等任務。

和 AI 領域內的許多技術一樣,OKAMI 也是一個縮寫詞,全稱是 Object-aware Kinematic retArgeting for huManoid Imitation,即用於人形機器人模仿的物體感知型動力學重定向。

顧名思義,這是一種物體感知型重定向方法,可以讓具有兩個靈巧機器手的雙手型人形機器人基於單個 RGB-D 視頻演示模仿其中的操作行爲。

OKAMI 方法詳解

OKAMI 採用了一種兩階段過程,可將人類運動重新定向成人形機器人的運動,從而可在不同初始條件下完成任務。

在第一個階段,OKAMI 會處理視頻並生成一個參考操作規劃。

在第二個階段,OKAMI 會使用該規劃來合成人形機器人的運動,這個過程會用到運動重定向,其作用是適應目標環境中的物體位置。

圖 2 展示了其整個工作流程。

問題描述

首先,該團隊將人形機器人操作任務描述成了一個離散時間馬爾可夫決策過程,並將其定義成了一個元組 M = (S, A, P, R, γ, µ)。其中 S 是狀態空間、A 是動作空間、P (・|s, a) 是轉移概率、R (s) 是獎勵函數、γ ∈ [0, 1) 是折扣因子、µ 是初始狀態分佈。

在這裡,S 就是原始 RGB-D 觀察的空間,其中包含機器人和物體的狀態;A 則是人形機器人的運動指令的空間;R 是一個稀疏的獎勵函數 —— 當任務完成時,返回 1。對於一個任務,其目標是找到一個策略 π,使其可以在測試時間最大化大量不同的初始配置下的預期任務成功率。

他們考慮了「基於觀察的開放世界模仿」設置。在該設置中,這個機器人系統會獲得一段錄製的 RGB-D 人類視頻 V,然後其需要返回一個人形機器人操作策略 π,使機器人可以完成視頻演示的任務。

參考規劃生成

爲了實現物體感知型重新定向,OKAMI 首先會爲人形機器人生成一個參考規劃。規劃生成需要了解有哪些與任務相關的物體以及人類如何操作它們。

識別和定位與任務相關的物體

爲了模仿視頻 V 中的操作任務,OKAMI 必須識別要交互的物體。之前的方法需要具有簡單背景的無監督方法或需要額外的人工標註,而 OKAMI 則不一樣,其使用了現成可用的視覺 - 語言模型(VLM)GPT-4V 來識別 V 中與任務相關的物體;這自然是用到了該模型中內化的常識性知識

具體來說,OKAMI 會通過採樣 RGB 幀並使用 GPT-4V 來獲取與任務相關的物體的名稱。使用這些名稱,OKAMI 再使用 Grounded-SAM 來分割第一幀中的物體並使用視頻目標分割模型 Cutie 來跟蹤這些物體的位置。

重建人類運動

爲了將人類運動重新定向成機器人運動,OKAMI 會重建來自 V 的人類運動以獲取運動軌跡。爲此,他們採用了改進版的 SLAHMR,這是一種用於重建人類運動序列的迭代式優化算法。雖然 SLAHMR 假設雙手平放,而新的擴展優化了 SMPL-H 模型的手部姿勢,這些姿勢使用來自 HaMeR 的估計手部姿勢進行初始化。此修改使得單目視頻中的身體和手部姿勢可以進行聯合優化。其輸出是一個獲取了全身和手部姿勢的 SMPL-H 模型序列,讓 OKAMI 可以將人類動作重新定向到人形機器人。

此外,SMPL-H 模型還能表示不同人類外觀的人類姿勢,從而可以輕鬆地將人類演示者的運動映射到人形機器人。

基於視頻生成規劃

有了任務相關的物體和重建出來的人類運動,OKAMI 就可以基於 V 生成用於完成每個子目標的參考規劃了。

OKAMI 識別子目標的方式是基於以下流程執行時間分割:

物體感知型重定向

有了來自演示視頻的參考規劃後,OKAMI 便可以讓人形機器人模仿 V 中的任務。機器人會遵循規劃中的每個步驟 l_i。然後經過重新定向的軌跡會被轉換成關節指令。這個過程一直重複直到任務完成,之後基於任務特定的條件來評估是否成功。

在測試時間定位物體

爲了在測試時間環境中執行規劃,OKAMI 必須定位機器人觀察中的相關物體,提取 3D 點雲來跟蹤物體位置。通過關注與任務相關的物體,OKAMI 策略可以泛化用於各不相同的視覺背景,包括不同的背景或任務相關物體新實例。

將人類運動重新定位到人形機器人

物體感知的關鍵是使運動適應新的物體位置。在定位物體後,OKAMI 會採用一種分解式重新定位過程,即分別合成手臂和手部運動。

OKAMI 首先根據物體位置調整手臂運動,以便將手指置於以物體爲中心的座標系內。然後,OKAMI 只需在關節配置中重新定位手指,以模仿演示者用手與物體交互的方式。

具體來說,首先將人體運動映射到人形機器人的任務空間,縮放和調整軌跡以考慮尺寸和比例的差異。然後,OKAMI 扭曲變形(warp)重新定位的軌跡,以便機器人的手臂到達新的物體位置。該團隊考慮了兩種軌跡變形情況 —— 當目標和參考物體之間的關係狀態不變時以及當關系狀態發生變化時,相應地調整變形。

在第一種情況下,僅基於目標物體位置執行軌跡變形。在第二種情況下,基於參考物體位置執行變形。

變形之後,使用逆動力學計算機器臂的關節配置序列,同時平衡逆運動學計算中的位置和旋轉目標的權重以保持自然姿勢。同時,將人類手部姿勢重新定位到機器人的手指關節,使機器人能夠執行精細的操作。

最後,可得到一套全身關節配置軌跡。由於機器臂運動重新定向是仿射式的,因此這個過程可以自然地適應不同演示者的情況。通過調整手臂軌跡以適應物體位置並獨立重新定位手部姿勢,OKAMI 可實現跨各種空間佈局的泛化。

實驗及結果

研究者在實驗部分主要回答了以下四個研究問題:

任務設計。研究者在實驗中執行了六項任務,分別如下:

硬件設置。研究者使用 Fourier GR1 機器人作爲自己的硬件平臺,配備了兩個 6 自由度(DoF)的 Inspire 靈巧手以及一個用來錄製視頻和進行測試時觀察的 D435i Intel RealSense 攝像頭。此外還實現了一個以 400Hz 運行的關節位置控制器。爲了避免出現抖動,研究者以 40Hz 來計算關節位置命令,並將命令插入 400Hz 軌跡。

評估方案。研究者針對每項任務運行了 12 次試驗。過程中,物體的位置在機器人攝像頭視野和人形手臂可觸及範圍的交點內進行隨機初始化。

基線。研究者將 OKAMI 與基線 ORION 進行了比較。

定性結果

爲了回答問題 1),研究者評估了 OKAMI 在所有任務中的策略,覆蓋日常取放、傾倒和操縱鉸接物體等多樣性行爲。結果如下圖 4(a)所示,實驗中隨機初始化了物體位置,這樣做讓機器人需要適應物體的位置。從結果來看,OKAMI 可以有效地泛化到不同的視覺和空間條件。

爲了回答問題 2),研究者在兩項代表性任務上將 OKAMI 與 ORION 進行比較,分別是將 Place-snacks-on-plate 和 Close-the-laptop。二者的不同之處在於 ORION 不以人類身體姿態爲條件。結果顯示,OKAMI 在兩項任務上分別實現了 75.0% 和 83.3% 的成功率,而 ORION 分別只有 0.0% 和 41.2%,拉開了很大的差距。

爲了回答問題 3),研究者進行了一項受控實驗,記錄了不同演示者的視頻,並測試 OKAMI 策略是否對所有視頻輸入都能保持良好的性能。同樣地,他們選擇的任務是 Place-snacks-on-plate 和 Close-the-laptop,結果如圖 4(b)所示。

總體而言,OKAMI 能夠在處理不同演示者的視頻時保持相當不錯的性能,不過處理這類多樣性的視覺 pipeline 仍有改進的空間。

利用 OKAMI Rollout 數據學習視覺運動策略

爲了解決問題 4),研究者在 OKAMI rollout 上訓練了神經視覺運動策略。他們首先在隨機初始化的物體 rollout 上運行 OKAMI,並在收集一個包含成功軌跡的數據集同時丟棄失敗的軌跡。此外他們通過行爲克隆算法在該數據集上訓練神經網絡策略,併爲 Sprinkle-salt 和 Bagging 兩項任務訓練視覺運動策略。

下圖 5 展示了這些策略的成功率,表明 OKAMI rollout 可以成爲有效的訓練數據源。並且,隨着收集到的 rollout 增多,學習到的策略會隨之改進。這些結果有望擴展數據收集範圍,從而無需費力遠程操作也能學習人形機器人操作技能。

侷限性和未來工作

OKAMI 雖強,但也並不完美,下面展示了兩個失敗實例:

OKAMI 目前專注於人形機器人的上半身運動重定向,尤其是用於桌面工作空間的操控任務。因此未來有希望擴展到下半身重定向,以便在視頻模仿期間實現運動行爲。更進一步,實現全身運動操控則需要一個全身運動控制器,而不是 OKAMI 中使用的關節控制器。

此外,研究者在 OKAMI 中依賴 RGB-D 視頻,這限制了他們使用以 RGB 記錄的野外互聯網視頻。因此擴展 OKAMI 使用網絡視頻將是未來另一個有潛力的研究方向。最後,當前重定向的實現在面對物體的形狀變化較大時表現出了較弱的穩健性。

未來的改進將是整合更強大的基礎模型,使機器人能夠總體瞭解如何與一類物體進行交互,即使這類物體的形狀變化很大。

https://x.com/yukez/status/1848373529386860933