Google DeepMind推Gemini Robotics 靈動性及互動力升級

2025年3月13日

Google旗下人工智能(AI)部門Google DeepMind發布，兩款新機械人模型「Gemini Robotics」和「Gemini Robotic-ER」，結合文字、影像、語音及影片的能力，已經展現處理複雜問題的能力。

DeepMind指，Gemini Robotics是一款視覺-語言-動作(vision-language-action，VLA)模型，並新增物理動作作為輸出模式，直接控制機械人，將更加靈活地完成各種任務。而Gemini Robotics-ER擁有更高級空間理解能力，讓機械人可以利用其體現推理(embodied reasoning ER)能力來運行開發者的自定義程序。

機械人採用的AI模型主要需要三個特質包括通用性(Generality)、互動性(Interactivity)及靈活性(Dexterity)，能夠適應不同情境、能夠理解並對指令或環境變化快速回應、能夠做到人們用手和手指所做的事，對於人類來說，許多日常動作是輕而易舉，但對機械人來說，實際上涉及極其精細運動技能，往往過於困難。而Gemini Robotics能夠完成如折疊或將零食裝入密封袋這類需要精確操作的複雜多步驟任務，這表明在靈巧性方面取得顯著突破。

Gemini Robotics-ER可以運用上下文學習能力，透過少量的人類示範模式來提供解決方案，比起Gemini 2.0有2至3倍的成功率。例便如桌上擺滿食物、想要整理時，機械人需要確切知道每個物品位置，還需懂得打開餐盒、抓取物品並準確放入餐盒。

目前Gemini Robotics-ER模型已向Agile Robots、Agility Robots、Boston Dynamics和Enchanted Tools在內的測試者開放，並期待探索這些模型的能力，並繼續開發AI以服務下一代更有幫助的機械人。