当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > FantasyWorld发布高德北邮3D建模新框架

FantasyWorld发布高德北邮3D建模新框架

2026-01-24 11:54:40 0浏览收藏

FantasyWorld是什么

FantasyWorld是由高德地图（AMAP）与北京邮电大学联合研发的前沿3D世界建模框架，致力于通过统一的视频理解与三维几何预测，构建高保真、强一致性的三维场景。该框架在冻结的视频基础模型基础上，引入可学习的几何分支，实现视频潜空间表征与隐式3D场的协同建模，仅需一次前向推理即可输出具备几何完整性与时间连续性的3D感知视频。其多视角一致性能力尤为突出，在极端视角变换（例如180°翻转）下仍能维持优异的视觉真实感与结构稳定性。

FantasyWorld— 高德地图联合北邮推出的3D世界建模框架

FantasyWorld的核心能力

视频与3D联合生成：依托冻结主干+可训练几何头的双通路设计，FantasyWorld同步建模动态视频内容与静态三维结构，使视频潜变量与隐式3D场深度耦合，为各类下游3D任务提供统一、泛化性强的表征基础。
双向跨模态监督机制：以几何信息为引导优化视频生成质量，同时用视频先验反向约束3D预测结果，形成闭环反馈式联合训练范式，显著提升生成内容的一致性与鲁棒性。
强鲁棒多视角一致性：即便面对大幅视角偏移（如前后/左右180°切换），所生成视频在不同视角间仍保持高度连贯的纹理、光照与几何关系，保障3D场景的空间可信度。
单次前向高效架构：集成预处理组件（PCBs）与重建-生成一体化模块（IRG），在多模态条件驱动下同步优化视频与几何特征，实现端到端、低延迟的高质量3D世界构建。
广泛适配下游任务：为AR/VR内容生产、具身智能体导航、数字孪生系统等依赖精准三维环境建模的应用场景提供坚实技术支撑，加速空间智能生态演进。

FantasyWorld的技术内核

几何增强型视频基座模型：在固定参数的视频基础模型上叠加轻量可训几何分支，打通视频时序建模与三维空间推理之间的语义鸿沟，支持同步完成动态内容生成与静态结构推断。
跨分支协同监督策略：借助几何线索调控视频帧合成过程，并利用视频中蕴含的运动、遮挡、透视等先验知识反哺3D结构预测，达成双向知识迁移与联合精炼。
多源异构信息融合机制：深度融合视频帧序列、相机姿态、深度线索等多模态输入，在统一框架下协同优化外观表征与几何结构，确保输出兼具视觉逼真性与几何合理性。
一体化前向推理流程：通过PCBs模块进行多尺度特征预对齐，并由IRG模块完成视频潜变量与几何特征的联合迭代优化，全程无需多次往返传播，兼顾效率与精度。
轻量化跨分支交互设计：在视频与几何分支之间嵌入参数高效的适配器（Adapter）及交叉注意力（Cross-Attention）模块，促进跨模态特征对齐与语义互补，强化整体建模能力。