完成億元級融資,「自變量機器人」實現全球最大“具身智能操作基座模型”|36氪首發
文|周鑫雨
編輯|蘇建勳
近期,36氪獲悉,具身智能創業公司“自變量機器人(X Square)”連續完成Pre-A與Pre-A+輪融資,總金額達到億元級。投資方包括德聯資本、基石資本、啟賦資本、南山戰新投,老股東九合創投持續加註,一葦資本擔任獨家財務顧問。
據瞭解,融資將用於下一代統一具身智能大模型的訓練與場景落地。
自變量機器人成立於2023年12月。公司致力於通過研發具身智能通用大模型的路徑,實現通用機器人。2024年4月初,36氪曾報道過其完成數千萬元天使輪及天使+輪融資。
自變量機器人的創始團隊,兼具Robotics Learning(機器人學習)和大模型的雙重背景。
創始人兼CEO王潛畢業於清華大學,是全球最早在神經網絡中引入注意力機制的學者之一。博士期間,王潛在美國頂級機器人實驗室參與了多項Robotics Learning的研究,研究方向覆蓋了機器人的多個前沿領域。
聯合創始人兼CTO王昊是北大計算物理博士,在粵港澳大灣區數字經濟研究院(IDEA研究院)期間擔任封神榜大模型團隊算法負責人,發佈了國內首個多模態開源大模型“太乙”,首批百億級大語言模型“燃燈”以及千億級大語言模型“姜子牙”。
當前,“腦”(不論大腦還是小腦)日益成爲具身智能賽道的熱門話題。
在海外,兩位前卡內基梅隆大學教授成立的Skild AI,在2024年7月完成了3億美元的融資,成立僅一年估值就達15億美元;由前Google研究員,Stanford與Berkeley教授成立的Physical Intelligence(PI),估值則已達到20億美元。
“自變量機器人從成立之日起就堅定選擇了‘統一大模型’的技術路線,與這兩家公司後續公佈的不謀而合。”王潛表示。
但目前,具身智能大模型領域還存在不少無人區。在國內,首批百億級大語言模型和機器人的結合還較淺,常常只侷限在簡單的語音互動與感知規劃。
與此同時,全球範圍內尚未出現能真正解決物理世界複雜的操作問題的通用大模型。傳統機器人通常基於特定場景和任務,很難根據環境和任務的變化自主調整策略。長遠來看,作爲“腦”的模型泛化性不足,也會給具身智能的規模化造成阻礙。
王潛對36氪表示,訓練具有高泛化性的具身智能通用大模型,也就是統一大模型,是目前真正的解法。
爲具身智能接入一個通用的底層模型,意味着機器人有了一個學習了所有任務之間的通用架構的大腦,比如物理世界的規律、物體的特性、機械臂的控制力度等。
相較於適用於特定任務或場景的垂直模型,具身智能通用模型所具有的任務泛化性,能夠讓開發者不用根據每個新任務從0-1訓練模型,減少模型微調所需訓練數據量的同時,所得模型還能根據任務和環境變化自主調整策略。
成立以來,自變量機器人在具身智能通用操作模型的研發上進行了快速迭代。成立僅2個月,自變量機器人就訓練出了第一版具身智能操作模型,可實現切菜、倒水等步驟長且複雜的操作任務。在2024年中,模型在特定任務上已顯現出少樣本學習和自發的跨任務遷移能力。
近期,自變量機器人實現了全球目前最大參數規模的具身智能通用操作大模型:Great Wall系列(GW)的WALL-A模型,採用的技術路線爲“統一具身智能大模型”。王潛表示,該模型在多個維度上達到或超過了SOTA水平。
據王潛介紹,WALL-A模型的特點在於,實現了兩個維度的“統一”:
一,實現了所有步驟“端到端”的完全縱向統一。輸入最原始的視頻、語言、傳感器信號,輸出最後的機器人的速度、位姿、力矩,用一個模型完全解決,中間沒有任何切分的步驟;
二,實現了不同任務的橫向統一。所有的任務放在同一個模型訓練,推理用同一個模型進行操作。也就是說,一切操作任務,只用這一個模型,就解決所有問題。
王潛對36氪提到,端到端的縱向統一,可以避免人爲干預所引入的噪聲和信息損失;任務的橫向統一,則讓機器人像人一樣從不同任務中獲得可相互借鑑的經驗。
“新一代的具身智能技術的突破體現在泛化性、通用性、自學習、處理複雜任務的能力上,這一切在統一大模型均有體現。”王潛表示。
他透露,自變量機器人已經實現了一系列創新,既包括底層算法、框架的創新,也包括數據工程、訓練工程的整體系統級創新和優化。
以下是投資人評價: