当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 谷歌DeepMind发布GeminiRobotics具身智能大模型

谷歌DeepMind发布GeminiRobotics具身智能大模型

2025-04-05 14:25:27 0浏览收藏

谷歌DeepMind发布了基于Gemini 2.0的具身智能机器人模型Gemini Robotics，标志着多模态AI在机器人控制领域的重大突破。该项目包含增强型视觉-语言模型Gemini Robotics-ER和视觉-语言-动作模型Gemini Robotics，前者具备强大的具身推理能力，后者可直接控制机器人执行复杂操作，并适应环境变化和不同指令表达。Gemini Robotics能够完成折纸、玩牌等高灵活度任务，以及打包午餐、使用工具等多步骤任务，展现出强大的视觉和语言理解能力以及环境适应性。其应用前景广泛，涵盖工业制造、物流仓储、家庭服务、医疗健康和教育科研等领域。

谷歌DeepMind的Gemini Robotics：赋能机器人的多模态AI

Gemini Robotics是谷歌DeepMind基于Gemini 2.0开发的机器人项目，它将强大的多模态大型语言模型能力应用于现实世界中的机器人控制。该项目包含两个核心模型：Gemini Robotics-ER和Gemini Robotics。Gemini Robotics-ER是一个增强型视觉-语言模型（VLM），具备卓越的具身推理能力，能够理解3D空间、识别物体、预测轨迹和抓取动作等。而Gemini Robotics则是一个视觉-语言-动作（VLA）模型，可以直接控制机器人执行复杂操作，并对物体类型和位置变化具有很强的适应性，能够理解和执行开放式词汇指令。通过进一步的微调，Gemini Robotics甚至可以胜任诸如折纸或玩牌等需要长期规划和高灵活性的任务，并快速适应新的任务和机器人形态。

Gemini Robotics— 谷歌 DeepMind 推出的具身智能大模型

核心功能：

复杂任务执行与智能交互： Gemini Robotics能够执行高灵活度任务（例如：折纸、玩牌、使用工具），完成多步骤的长时域任务（例如：打包午餐、制作三明治），以及进行精细操作（例如：使用镊子夹取小物体、拧紧瓶盖）。
强大的视觉和语言理解： 该系统具备强大的视觉理解能力，可以识别和定位场景中的物体，进行多视角理解、3D空间推理和物体检测。同时，它也具备强大的语言理解能力，能够理解自然语言指令并执行开放词汇任务。
环境适应性和泛化能力： Gemini Robotics对环境变化具有鲁棒性，能够适应不同的背景、光照条件和干扰物，并能适应物体位置变化和不同物体实例的操作。此外，它还可以理解不同表达方式的指令，包括不同语言和包含拼写错误的指令。

技术架构：

Gemini Robotics的技术基础是Gemini 2.0，它为机器人提供了强大的视觉和语言理解能力。Gemini Robotics-ER作为其增强版，更侧重于具身推理能力。其VLA模型通过摄像头获取视觉输入，理解自然语言指令，并生成相应的机器人动作指令。整个系统采用数据驱动训练方式，结合真实机器人操作数据和海量非机器人数据（例如：网络图像、文本、视频），从而实现强大的泛化能力。系统架构包括云端VLA主干网络（负责复杂的视觉和语言推理）和本地动作解码器（运行在机器人本地，保证低延迟和高响应性）。

项目信息：