当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > Yume1.5：上海AILab联合复旦开源模型发布

Yume1.5：上海AILab联合复旦开源模型发布

2026-01-01 14:18:56 0浏览收藏

Yume1.5 是什么

Yume1.5 是由上海人工智能实验室联合复旦大学等机构共同研发的交互式三维世界生成模型，具备从单张图像或自然语言提示中构建高保真、时序连贯且支持实时探索的虚拟环境的能力。该模型创新性地引入联合时空通道建模（TSCM）与多项实时优化机制，有效缓解了当前生成模型在泛化能力、响应延迟以及文本指令精准控制等方面的瓶颈。Yume1.5 提供三种核心生成模式：文本驱动建模、图像驱动扩展、以及基于自然语言的动态事件编辑，并支持用户通过标准键盘操作实现人物行走与视角切换。在单块消费级 GPU 上即可达成 12 FPS 的稳定渲染帧率，大幅增强人机交互沉浸感，为下一代虚拟仿真系统与沉浸式应用开辟新路径。

Yume1.5 的核心能力

文本到世界（Text-to-World）：用户仅需输入一段描述性文字，模型即可自动生成结构完整、细节丰富的可交互三维世界。
图像到世界（Image-to-World）：以任意一张静态图片为起点，自动推演并构建出具有深度感、运动逻辑与空间一致性的动态虚拟场景。
文本驱动事件编辑（Text-Guided Event Editing）：支持用日常语言实时插入动态变化，例如“一只猫跳上窗台”或“天空迅速变暗”，所触发事件将自然融入当前世界并持续演化。
低延迟交互控制：内置轻量级控制协议，兼容 WASD 键移动角色、方向键调整摄像机朝向，实现在生成世界中的自由漫游与多角度观察，强化临场体验。
长程视频一致性生成：借助 TSCM 架构与 Self-Forcing 自反馈机制，模型可在无限延伸的时间维度中维持画面质量与语义稳定性，避免传统长序列生成中常见的模糊、抖动或逻辑断裂问题。

Yume1.5 的技术实现

联合时空通道建模（TSCM）：该模块对历史帧信息进行三重压缩——时间轴降采样、空间分辨率缩减、通道维度精简，并采用线性注意力机制高效融合跨帧特征。在显著降低显存占用与计算负载的同时，保留关键时空依赖关系，保障长视频输出的视觉连贯性与物理合理性。
实时推理加速机制：集成双向注意力蒸馏（Self-Forcing）策略与强化文本表征编码方案，使模型能以自身前序输出为条件持续预测后续帧，提升误差鲁棒性；结合训练阶段的梯度优化设计，实现更快速、更稳定的端到端推理。
细粒度文本事件解析：将输入文本解耦为“事件主体+行为动作”双语义单元，分别映射至场景状态更新与对象运动建模两个子任务，降低联合建模复杂度；配合混合数据集训练，确保模型对多样化指令具备强泛化响应能力。
交替式协同训练范式：采用图文双模态混合训练策略，在同一框架下交替执行文本→视频与图像→视频任务，促使模型同步习得内容生成与上下文编辑能力，全面提升其在真实复杂场景下的适应性与实用性。