当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > WorldVLA：阿里达摩院联合浙大推出自回归动作模型

WorldVLA：阿里达摩院联合浙大推出自回归动作模型

2025-07-05 23:00:29 0浏览收藏

本篇文章向大家介绍《WorldVLA：阿里达摩院联合浙大推出自回归动作模型》，主要包括，具有一定的参考价值，需要的朋友可以参考一下。

WorldVLA是由阿里巴巴达摩院与浙江大学联合开发的一种自回归动作世界模型。该模型将视觉-语言-动作（VLA）模型与世界模型融合于同一框架中，通过图像和动作的预测来理解环境的基本物理规律，从而提升动作生成的质量。动作模型根据图像观察生成后续动作，辅助视觉理解，并反过来增强世界模型的视觉生成能力。WorldVLA在性能上优于单独的动作模型或世界模型，体现了二者之间的相互增强效果。为了解决自回归方式生成连续动作时可能出现的性能下降问题，模型引入了一种注意力掩码策略，在生成当前动作时选择性地屏蔽之前动作的影响，显著提升了动作块生成的效果。

WorldVLA的核心功能

动作规划：依据图像和语言指令生成相应的后续动作，支持连续动作的生成。
图像状态预测：基于当前图像和执行的动作预测未来的图像状态，提高视觉预测的准确性。
环境建模能力：通过学习环境中的物理规律，增强对视觉信息和动作的理解。
双向协同机制：动作模型与世界模型之间形成互动增强关系，整体提升系统表现。

WorldVLA的技术实现

统一架构设计：WorldVLA整合了视觉-语言-动作（VLA）模型与世界模型，使用三个独立编码器（图像、文本与动作编码器）将多模态数据转换为统一词汇表中的标记，实现跨模态处理。
自回归建模方式：采用自回归机制进行动作与图像的生成。动作模型根据历史图像和语言输入生成动作序列，世界模型则依据历史图像和动作预测未来图像状态。
注意力掩码机制：针对自回归模型在长序列生成中可能出现的性能衰退问题，提出一种注意力掩码策略，在生成当前动作时有选择地忽略先前动作的影响，降低误差传播，提升动作块生成质量。
双向增强机制：模型利用世界模型与动作模型之间的反馈关系实现互惠增强。世界模型通过预测未来状态帮助动作模型理解环境动态，而动作模型生成的动作又能反哺世界模型，提升其图像预测精度。
混合训练方法：在训练过程中同时使用动作模型与世界模型的数据，使模型能够在统一结构下掌握多种能力，如动作生成与图像预测。