李飛飛團隊發佈“具身智能”成果:機器人接入大模型直接聽懂人話

最近,斯坦福大學李飛飛團隊公佈了“具身智能”的最新成果:VoxPoser,即大模型接入機器人,把複雜指令轉化成具體行動規劃,人類可以隨意地用自然語言給機器人下達指令,機器人也無需額外數據和訓練。

據悉,相比需要額外預訓練的傳統方法,這個方法用大模型指導機器人如何與環境進行交互,所以直接解決了機器人訓練數據稀缺的問題。

值得一提的是,這一方法利用了視覺語言模型,以便感知和分析出真實場景中的目標,例如繞過障礙,甚至可以完成開瓶子、按開關、拔充電線等複雜操作,且不需要訓練。

去年5月,李飛飛在美國文理科學院的會刊Ddalus上發表了一篇文章,以計算機視覺中的物體識別任務爲切入點,研究了ImageNet數據集及相關算法的發展歷程。其中,她提出了計算機視覺發展的三個方向:具身智能(Embodied AI)、視覺推理(Visual Reasoning)、場景理解(Scene Understanding)。

具身智能,從字面意思來看,就是具有“身體”的智能體,顧名思義,就是軟硬件結合的智能體,即人工智能機器人。同時,由於大模型的盛行,人們普遍將其視爲人形機器人與大模型的結合。

對此,李飛飛認爲,具身智能不單指人形機器人,任何能在空間中移動的有形智能機器都是人工智能的一種形式。

除了李飛飛之外,英偉達創始人黃仁勳、特斯拉CEO馬斯克等大佬都非常看好具身智能的前景。

目前,國內各類機器人快速發展。在上週的世界人工智能大會上,包括特斯拉“擎天柱”在內20多款機器人亮相。同時,國內相關算法、大模型、芯片以及零部件等產業鏈相關企業也已經在機器人領域佈局,爲新興的具身智能概念打下基礎。

隨着ChatGPT流量的下滑,人們都十分期待下一個現象級應用的誕生。藉助機器人與大模型等相關技術結合,未來具身智能走入人類的生活,真正將人類從繁重的工作中解放出來,勢必掀起新一輪的創新浪潮。