当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 阿里达摩院开源具身智能模型RynnBrain

阿里达摩院开源具身智能模型RynnBrain

2026-02-19 18:09:49 0浏览收藏

阿里达摩院开源的RynnBrain是全球首个具备真正时空记忆与物理空间推理能力的具身智能基础模型，依托自研RynnScale架构与超2000万高质量图文-动作对训练，在16项权威评测中全面刷新SOTA；它不仅首次实现跨时间、跨空间的全局回溯推理和任务中断无缝续接，还通过显式物理世界建模、多维感知融合与30B MoE稀疏激活等突破性设计，在保持“类脑”认知能力的同时大幅提升响应速度与部署灵活性，正加速推动机器人从被动执行迈向自主理解、长期记忆与复杂环境协同决策的新阶段。

RynnBrain是什么

RynnBrain是由阿里巴巴达摩院研发并开源的具身智能核心基础模型，首次赋予机器人具备时空记忆能力与物理空间推理能力。该模型基于Qwen3-VL进行训练，采用自研的RynnScale架构，训练数据规模超过2000万组高质量图文-动作对。在16项主流具身智能公开评测中均取得最优性能（SOTA），表现超越谷歌Gemini Robotics ER 1.5等国际领先模型。阿里此次同步开源了涵盖全参数量级的7个模型版本，其中包括业界首个30B参数MoE结构具身模型——仅需激活约3B参数即可完成高效推理，显著提升机器人动作响应速度与执行流畅度，为高难度移动操作及长周期任务规划提供真正意义上的“类脑”支撑。

RynnBrain— 阿里达摩院开源的具身智能大脑基础模型

RynnBrain的核心能力

时空记忆能力：机器人可在完整行为历史中精准定位目标物体与关键区域，推演运动路径，并实现跨时间、跨空间的全局回溯推理。
物理空间理解能力：通过语言指令与空间坐标联合建模的交错式推理机制，确保每一步决策都严格锚定于真实物理环境，大幅降低幻觉输出风险。
任务状态延续性：当机器人在执行任务A过程中被临时切换至任务B时，能完整保留A任务的时间戳、空间位姿与上下文状态，待B完成后自动无缝续接。
多维感知融合能力：全面支持环境建模、物体关系推理、第一视角视觉问答、三维空间推理、轨迹预测等16类典型具身智能能力。
轻量适配扩展能力：依托统一基础模型，仅需数百条样本即可完成领域微调，快速衍生出导航、任务规划、动作生成等专用子模型。

RynnBrain的技术实现机制

端到端多模态融合架构：整合第一人称视频流、自然语言指令与物理环境约束信息，通过跨模态注意力机制完成视觉-语言语义对齐，并嵌入物理规律模块，兼顾统计学习范式与物体可操作性（affordance）、几何拓扑关系等底层物理特性，最终生成可直接驱动执行器的动作序列。
自我中心认知建模：针对动态变化的第一视角输入，采用视频Transformer处理长时序观测帧，构建帧间一致性表征；结合3D场景图或神经辐射场（NeRF）构建可检索的空间记忆库，支撑对历史观测内容的时空回溯与精准问答。
细粒度时空定位机制：将历史视频编码为episode级记忆向量，支持以自然语言为查询条件进行时序检索与关键帧定位；融合视觉接地（visual grounding）技术将文本描述映射至图像区域，并通过空间坐标回归输出三维空间位置，进而支撑运动轨迹预测与前瞻性任务规划。
显式物理世界建模规划：区别于传统端到端动作预测型VLA模型，RynnBrain显式引入物理世界模型组件：自动提取物体交互属性、验证动作在现实中的可行性，并利用分层规划器将高层语义意图分解为含条件判断的底层动作链，显著提升复杂长程任务的成功率与鲁棒性。
灵活模型架构体系：提供Dense（2B / 8B）与MoE（30B-A3B）两类主干结构：Dense版本全参数激活，适用于低延迟边缘设备部署；MoE版本稀疏激活，在保持大模型容量的同时控制推理开销，并针对导航、空间推理、任务规划等不同任务类型推出专项优化变体。