比人快0.9秒,AI讓機器人提前微笑,融入人類社交世界成爲可能?

ChatGPT等大型語言模型(LLM)的出現,讓機器人具備瞭如同人類一般的語言表達能力。然而,機器人在與人類交談時,其面部表情卻依然顯得很不自然,甚至充滿了恐懼感。

這無疑會阻礙人與機器溝通的意願,讓兩者的溝通變得十分困難。

因此,在未來人機共存的時代,設計一個不僅能做出各種面部表情,而且知道何時使用這些表情的機器人,至關重要。

如今,來自哥倫比亞大學的研究團隊及其合作者便邁出了重要一步——製造了一個披着硅片、能夠預測人類面部表情並同步執行表情的機器人 Emo。它甚至可以在人類微笑前約 840 毫秒(約 0.9 秒)預測即將出現的微笑。

據介紹,它能與人進行眼神交流,並利用兩個人工智能(AI)模型在人微笑之前預測並“複製”人的微笑。研究團隊表示,這是機器人在準確預測人類面部表情、改善互動以及建立人類與機器人之間信任方面的一大進步。

相關研究論文以“Human-robot facial coexpression”爲題,已於今天發表在科學期刊Science Robotics上。哥倫比亞大學機械工程系博士Yuhang Hu爲該論文的第一作者和共同通訊作者,他的導師、哥倫比亞大學教授Hod Lipson爲該論文的共同通訊作者。

圖|Yuhang Hu 與 Emo 面對面。(來源:Creative Machines Lab)

在一篇同期發表在Science Robotics的 FOCUS 文章中,格拉斯哥大學計算社會認知教授 Rachael Jack 評價道:

“人類社交互動本質上是多模式的,涉及視覺和聽覺信號的複雜組合,雖然 Hu 及其同事的研究集中在單一模式——面部表情上,但他們的成果在爲開發更復雜的多模態信號的社交同步技能方面做出了巨大的貢獻。”

在她看來,儘管這是一個複雜的跨學科工作,但“真正使社交機器人融入人類社交世界是可能的”。

Emo 微笑了,但也不僅僅是“微笑”

如果你走到一個長着人類腦袋的機器人面前,它先對你微笑,你會怎麼做?你很可能會回以微笑,也許會覺得你們兩個在真誠地交流。

但是,機器人怎麼知道如何做到這一點呢?或者更好的問題是,它怎麼知道如何讓你回以微笑?

爲此,Yuhang Hu 及其同事需要解決兩大難題:一是如何以機械方式設計一個表情豐富的機器人面部,這涉及複雜的硬件和執行機制;二是知道該生成哪種表情,以使它們看起來自然、及時和真實。

據論文描述,Emo 配備了 26 個致動器,頭部覆蓋有柔軟的硅膠皮膚,並配有磁性連接系統,從而便於定製和快速維護。爲了實現更逼真的互動,研究團隊在 Emo 每隻眼睛的瞳孔中都集成了高分辨率攝像頭,使其能夠進行眼神交流,這對非語言交流至關重要。

圖|Robot face 平臺

另外,他們還開發了兩個人工智能模型:其中一個通過分析目標面部的細微變化預測人類面部表情,另一個則利用相應的面部表情生成運動指令。第一個模型是通過觀看網絡視頻進行訓練的,而第二個模型則是通過讓機器人觀看自己在實時攝像機畫面上的表情來訓練的。他們通過與其他基線進行定量評估,證明了這兩個模型的有效性。

圖|模型架構。逆向模型(A)和預測模型(B)

爲了訓練 Emo 學會做出面部表情,研究團隊把 Emo 放在攝像頭前,讓它做隨機動作。幾個小時後,Emo 就學會了面部表情與運動指令之間的關係——就像人類通過照鏡子練習面部表情一樣。他們將其稱爲“自我建模”——類似於人類想象自己做出特定表情時的樣子。

然後,研究團隊播放人類面部表情的視頻,讓 Emo 逐幀觀察。經過幾個小時的訓練後,Emo 便可以通過觀察人們面部的微小變化來預測他們的面部表情。

在 Yuhang Hu 看來,準確預測人類的面部表情是人機交互技術的重要突破,“當機器人與人進行實時表情交互時,不僅能提高交互質量,還有助於建立人與機器人之間的信任。未來,在與機器人互動時,機器人會像真人一樣觀察和解讀你的面部表情。”

值得一提的是,這項研究的潛在影響或許已經超越機器人學,擴展到神經科學和實驗心理學等領域。

例如,一個可以預測和同步面部表情的機器人系統可以作爲研究鏡像神經元系統的工具。通過在測量大腦活動的同時與參與者互動,研究人員可以深入瞭解社會互動和交流的神經相關性。

在心理學領域,具有預測和同步面部表情能力的機器人可用作教育工具,幫助自閉症患者發展更好的社交溝通技能。已有研究表明,機器人可以有效地吸引患有自閉症譜系障礙(ASD)的兒童,促進他們的社交互動。

不足與展望

儘管 Emo 已經可以預測人類面部表情並同步快速回應,但遠不具備完全捕捉到人類的面部交流能力,甚至在由成人模樣的機器人進行模仿時,可能會讓人感覺厭惡。

然而,研究團隊認爲,就像嬰兒在學會模仿父母之後才能獨立做出面部表情一樣,機器人必須先學會預測和模仿人類的表情,然後才能成熟地進行更加自發和自我驅動的表情交流。

在未來的工作中,他們希望擴大 Emo 的表情範圍,並希望訓練 Emo 根據人類所說的話做出表情。他們正在努力將語言交流整合到 Emo 中,並接入類似 ChatGPT 的大型語言模型。

然而,他們也表示,必須謹慎選擇機器人模仿的面部表情。例如,某些面部姿態,如微笑、點頭和保持眼神接觸,通常會自然地得到迴應,並且在人類交流中會被積極地看待。相反,對於噘嘴或皺眉等表情的模仿則應謹慎,因爲這些表情有可能被誤解爲嘲諷或傳達非預期的情緒。

另外,人類用戶如何感知這些表情纔是衡量成功與否的最終標準。未來的一個重要步驟是驗證這些表情在現實世界中人與機器人在各種情境下互動時的情感效果,以確定其心理有效性。

此外,該研究也存在一定的侷限性,其中之一爲“模型的預測和表情模仿可能缺乏文化敏感性”。

衆所周知,不同的文化可能會對某些面部表情有不同的規範和含義。例如,雖然在許多文化中,微笑通常被認爲是快樂或友好的標誌,但它也可能是尷尬或不確定的標誌。同樣,直接的目光接觸在某些文化中可能被視爲自信和誠實的表現,但在其他文化中卻可能被視爲粗魯或對抗。

未來的工作可以探索將文化背景融入到模型中,一個可能的方法是納入來自不同文化背景的數據集,並在算法中融入對文化規範的理解。

圖|Yuhang Hu 在 Hod Lipson 的實驗室工作。(來源:John Abbott/哥倫比亞工程學院)

最後,一個不能逃避的話題是,隨着機器人的行爲能力越來越像人類,研究團隊必須考慮與這項技術相關的倫理問題。杜絕可能的技術濫用(如欺騙或操縱),需要強有力的倫理框架和管理。

儘管如此,這一研究也着實令人十分興奮。正如研究團隊所言:

“我們正逐步接近這樣一個未來——機器人可以無縫融入我們的日常生活,爲我們提供陪伴、幫助,甚至是共鳴。想象一下,在這個世界上,與機器人互動就像與朋友交談一樣自然和舒適。”