☰

李飛飛團隊發佈“具身智能”成果：機器人接入大模型直接聽懂人話

最近，斯坦福大學李飛飛團隊公佈了“具身智能”的最新成果：VoxPoser，即大模型接入機器人，把複雜指令轉化成具體行動規劃，人類可以隨意地用自然語言給機器人下達指令，機器人也無需額外數據和訓練。

據悉，相比需要額外預訓練的傳統方法，這個方法用大模型指導機器人如何與環境進行交互，所以直接解決了機器人訓練數據稀缺的問題。

值得一提的是，這一方法利用了視覺語言模型，以便感知和分析出真實場景中的目標，例如繞過障礙，甚至可以完成開瓶子、按開關、拔充電線等複雜操作，且不需要訓練。

去年5月，李飛飛在美國文理科學院的會刊Ddalus上發表了一篇文章，以計算機視覺中的物體識別任務爲切入點，研究了ImageNet數據集及相關算法的發展歷程。其中，她提出了計算機視覺發展的三個方向：具身智能（Embodied AI）、視覺推理（Visual Reasoning）、場景理解（Scene Understanding）。

具身智能，從字面意思來看，就是具有“身體”的智能體，顧名思義，就是軟硬件結合的智能體，即人工智能機器人。同時，由於大模型的盛行，人們普遍將其視爲人形機器人與大模型的結合。

對此，李飛飛認爲，具身智能不單指人形機器人，任何能在空間中移動的有形智能機器都是人工智能的一種形式。

除了李飛飛之外，英偉達創始人黃仁勳、特斯拉CEO馬斯克等大佬都非常看好具身智能的前景。

目前，國內各類機器人快速發展。在上週的世界人工智能大會上，包括特斯拉“擎天柱”在內20多款機器人亮相。同時，國內相關算法、大模型、芯片以及零部件等產業鏈相關企業也已經在機器人領域佈局，爲新興的具身智能概念打下基礎。

隨着ChatGPT流量的下滑，人們都十分期待下一個現象級應用的誕生。藉助機器人與大模型等相關技術結合，未來具身智能走入人類的生活，真正將人類從繁重的工作中解放出來，勢必掀起新一輪的創新浪潮。

李飛飛團隊發佈“具身智能”成果：機器人接入大模型直接聽懂人話

相關資訊