当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 微软研究院开源MineWorld，实时交互新体验

微软研究院开源MineWorld，实时交互新体验

2025-04-21 23:40:19 0浏览收藏

微软研究院开源了基于《我的世界》的实时交互式世界模型MineWorld。该模型利用视觉-动作自回归Transformer架构，以每秒4-7帧的速度生成高保真游戏场景，并支持实时互动。MineWorld在视频质量、可控性和推理速度方面均优于现有模型，可用于具身智能研究、强化学习训练、游戏代理开发及视频生成等领域，其开源项目已上线Github和HuggingFace。

MineWorld是由微软研究院开源的一个基于《我的世界》（Minecraft）的实时交互式世界模型。它利用视觉-动作自回归Transformer架构，将游戏场景和动作转化为离散的token ID，通过预测下一个token进行训练。模型采用了并行解码算法，实现了每秒4至7帧的生成速度，支持实时互动。MineWorld在视频质量、可控性和推理速度方面都优于现有模型，如Oasis。

MineWorld— 微软研究院开源的实时交互式世界模型

MineWorld的主要功能包括：

高生成质量：通过视觉-动作自回归Transformer，MineWorld能够根据视觉和动作生成连贯且高保真的游戏帧。
强可控性：模型在动作跟随能力的基准测试中表现出色，能够精确且一致地根据输入动作生成游戏场景。
快速推理速度：利用并行解码算法，模型能够以每秒4至7帧的速度生成图像，支持实时互动。
作为游戏代理：在训练过程中，MineWorld同时预测游戏状态和动作，可以作为独立的游戏代理进行自主游戏。
实时交互能力：用户可以通过Web演示或本地运行与模型进行实时互动，选择初始帧、控制相机移动并执行游戏动作。

MineWorld的技术原理如下：

视觉-动作自回归Transformer：MineWorld通过将游戏场景和玩家动作转化为离散的token序列，实现视觉和动作的联合建模。具体包括：
- 图像标记器（Visual Tokenizer）：采用VQ-VAE架构，将游戏场景分割为离散的视觉标记。标记器从预训练的检查点开始，在Minecraft数据集上进行微调，以实现高质量的图像重建。
- 动作标记器（Action Tokenizer）：将玩家的连续动作（如鼠标移动）量化为离散的标记，将离散动作（如前进、攻击）归类为不同的类别，每个类别由唯一的标记表示。
- Transformer解码器：采用LLaMA架构，接收交错拼接的视觉标记和动作标记序列作为输入，通过下一个标记预测进行训练。解码器能够同时学习游戏状态的丰富表示以及状态和动作之间的条件关系。
并行解码算法：为了实现实时交互，MineWorld开发了一种并行解码算法。算法利用相邻图像标记之间的空间依赖性，同时预测每帧中的空间冗余标记。与传统的自回归解码算法相比，显著提升了生成速度，使模型能够在不同规模下达到每秒4至7帧的生成速度。
训练：模型通过下一个标记预测进行训练，学习游戏状态之间的动态演变规律以及动作与状态之间的关联。
推理：在推理阶段，模型根据输入的当前游戏状态和动作，生成后续的游戏场景。并行解码算法的应用使得模型能够快速生成高质量的游戏帧。
评估指标：MineWorld提出了新的评估指标，用于评估生成场景的视觉质量和动作跟随能力。例如，通过比较生成场景中预测的动作与输入的真实动作之间的准确性，来量化模型的可控性。

MineWorld的项目地址包括：

Github仓库：http://github.com/microsoft/MineWorld
HuggingFace模型库：http://huggingface.co/microsoft/mineworld
arXiv技术论文：http://arxiv.org/pdf/2504.08388

MineWorld的应用场景包括：

具身智能研究：MineWorld提供了一个高保真、可交互的虚拟环境，适合用于具身智能的研究。研究人员可以用模型训练智能体，学习在虚拟环境中执行任务，如物体定位导航和环境探索。
强化学习训练：MineWorld的实时交互能力和高生成质量使其成为强化学习训练的理想平台。研究人员可以用模型快速生成大量的训练数据，帮助智能体在模拟环境中学习最优策略。
游戏代理开发：由于MineWorld在训练过程中同时预测游戏状态和动作，具备作为游戏代理的潜力。给定初始游戏状态和动作，模型可以迭代生成未来的状态和动作，模拟长期的游戏过程。
实时交互式模拟：MineWorld的快速推理速度（每秒4至7帧）能支持与游戏玩家的实时交互。
视频生成与编辑：MineWorld能够生成高质量、连贯一致的游戏视频，可用于视频内容创作，例如生成游戏预告片和教学视频。

本篇关于《微软研究院开源MineWorld，实时交互新体验》的介绍就到此结束啦，但是学无止境，想要了解学习更多关于科技周边的相关知识，请关注golang学习网公众号！