当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 谢赛宁开源Solaris,多人视频生成模型发布

谢赛宁开源Solaris,多人视频生成模型发布

2026-03-21 08:24:44 0浏览 收藏
谢赛宁团队重磅开源Solaris——全球首个面向Minecraft环境的多人视频世界生成模型,首次突破单视角限制,实现两名玩家第一人称视角的实时、空间一致、因果精准的协同视频生成:一人放置方块,另一人眼中立刻呈现相同变化;一人跳跃转向,另一视角同步响应;连背包更新、昼夜切换、PvP对抗等复杂机制都高度保真。依托自研SolarisEngine采集的1260万帧高质量多人交互数据与创新的Checkpointed Self Forcing训练范式,Solaris不仅能稳定输出长达11.2秒的连贯视频,还支持全量Minecraft原生操作驱动,为具身智能训练、多智能体协作研究、VLA联合建模及三维认知评测提供了前所未有的可控、可扩展、高保真仿真基座——现在即可通过GitHub、HuggingFace和arXiv免费获取全部代码、模型与论文。

Solaris是什么

Solaris 是首个面向多人视频世界的生成式模型,专为 Minecraft 环境设计,可同步生成两名玩家一致的第一人称视角视频。该模型突破了当前主流世界模型仅支持单玩家视角的限制,实现了跨玩家视角的空间一致性——例如当一名玩家放置方块或移动位置时,另一名玩家所见画面将实时、准确地呈现对应变化。研发团队自主研发了 SolarisEngine 数据采集系统,累计构建涵盖 1260 万帧的高质量多人游戏交互数据集,并创新提出 Checkpointed Self Forcing 训练范式,有效缓解长序列建模中的显存压力与误差累积问题。

Solaris— 谢赛宁研究团队开源的多人视频世界生成模型

Solaris 的核心能力

  • 双视角协同生成:支持同时输出两位玩家高度一致的第一人称视频流,确保空间结构、物体状态及动态事件在不同视角下严格对齐;任一玩家的动作(如挖掘、跳跃、转向)均能在另一视角中即时、合理地体现。
  • 长程时序可控生成:依托 Checkpointed Self Forcing 技术,Solaris 可稳定生成长达 224 帧(即 11.2 秒)的连贯视频序列,显著抑制传统自回归方法中因逐步预测导致的画面漂移与结构崩塌。
  • 细粒度动作驱动:全面兼容 Minecraft 全套原生操作指令,包括角色移动、视角旋转、方块交互(挖掘/放置)、物品使用等,生成内容严格遵循输入的动作轨迹与时序逻辑。
  • 高保真动态建模:能够精准复现背包物品同步更新、昼夜与天气切换、物理性建造/破坏过程、PvP 实时对抗等复杂游戏机制,体现真实世界交互的因果性与反馈闭环。

Solaris 的技术实现

  • 多视角 DiT 主干架构:基于 MatrixGame 2.0 单玩家扩散 Transformer 进行扩展,通过增大动作嵌入维度适配完整 Minecraft 操作空间;新增跨玩家自注意力模块以建模双视角间空间依赖关系,并引入玩家身份标识嵌入(Player ID Embedding)区分视角来源;其余组件(如交叉注意力层、前馈网络)沿用原始单玩家配置以保持稳定性。
  • 四阶段渐进式训练流程:起始于单玩家预训练权重,在 VPT 数据集上完成 Minecraft 动作空间适配微调;随后迁移至多人数据,训练双向教师模型;进一步将其因果化改造为滑动窗口生成器;最终通过 Checkpointed Self Forcing 实现端到端长序列优化。
  • Checkpointed Self Forcing 机制:针对滑动窗口自回归推理中 KV 缓存随长度线性增长的内存瓶颈,该方法先无梯度前向生成并缓存关键帧及其噪声中间态,再借助定制化注意力掩码实现单次并行重计算,在完全复现原有依赖路径的前提下,将内存复杂度由 O(Lt​⋅Ls​) 降至 O(Lt​),同时支持 KV 缓存梯度回传,兼顾效率与生成质量。
  • SolarisEngine 多人数据引擎:为解决现有采集框架不支持多视角同步的问题,团队设计了基于 Mineflayer 控制器与官方 Minecraft 客户端解耦的相机采集架构,结合服务器端插件实现毫秒级状态广播,并采用 Docker 容器集群进行分布式部署与故障自愈,最终构建出含精确动作标注的 1260 万帧多人协作数据集。

Solaris 的项目资源

Solaris 的典型应用方向

  • 具身智能的仿真训练平台:作为可扩展、高可控的多智能体世界模拟器,为机器人导航、游戏 AI 决策等任务提供低成本、高安全性的合成训练环境,支撑策略学习、推理时规划及鲁棒性评估。
  • 多智能体协同行为研究:支持构建共建、共战、分工协作等多样化多人任务场景,用于探索 AI 代理间的隐式通信、角色分配、共识形成等社会性智能涌现机制。
  • 视觉-语言-动作联合建模基础设施:可批量产出大规模、多视角、强对齐的视频-动作-文本三元组数据,填补真实人类多人交互数据稀缺的空白,服务于 VLA(Vision-Language-Action)模型的预训练与领域适配。
  • 三维空间理解能力评测基准:作为可编程、可干预的可控测试沙盒,可用于定量评估模型在视角一致性维持、物体持久性建模、空间记忆与推理等关键三维认知能力上的表现水平。

本篇关于《谢赛宁开源Solaris,多人视频生成模型发布》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于科技周边的相关知识,请关注golang学习网公众号!

PHP数组取最后一个元素的5种方法PHP数组取最后一个元素的5种方法
上一篇
PHP数组取最后一个元素的5种方法
哔哩哔哩粉丝充电榜查看方法
下一篇
哔哩哔哩粉丝充电榜查看方法
查看更多
最新文章
资料下载
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    543次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    516次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    500次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    485次学习
查看更多
AI推荐
  • ChatExcel酷表:告别Excel难题,北大团队AI助手助您轻松处理数据
    ChatExcel酷表
    ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
    4187次使用
  • Any绘本:开源免费AI绘本创作工具深度解析
    Any绘本
    探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
    4541次使用
  • 可赞AI:AI驱动办公可视化智能工具,一键高效生成文档图表脑图
    可赞AI
    可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
    4427次使用
  • 星月写作:AI网文创作神器,助力爆款小说速成
    星月写作
    星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
    6074次使用
  • MagicLight.ai:叙事驱动AI动画视频创作平台 | 高效生成专业级故事动画
    MagicLight
    MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
    4793次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码