当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 生成越长越跑偏？浙大商汤新作StarGen让场景视频生成告别「短片魔咒」

生成越长越跑偏？浙大商汤新作StarGen让场景视频生成告别「短片魔咒」

2025-01-18 23:13:34 0浏览收藏

对于一个科技周边开发者来说，牢固扎实的基础是十分重要的，golang学习网就来带大家一点点的掌握基础知识点。今天本篇文章带大家了解《生成越长越跑偏？浙大商汤新作StarGen让场景视频生成告别「短片魔咒」》，主要介绍了，希望对大家的知识积累有所帮助，快点收藏起来吧，否则需要时就找不到了！

浙江大学和商汤科技的研究人员提出了一种名为StarGen的新型时空自回归框架，用于实现可扩展且可控的场景生成。该框架巧妙地结合了空间和时间双重条件机制，将稀疏视图的3D几何信息与视频扩散模型有效融合，从而解决了复杂场景长距离生成中时空一致性难题，显著降低了误差累积。

AIxiv专栏持续发布学术和技术前沿内容，至今已报道超过2000篇来自全球顶尖高校和企业实验室的论文，为学术交流与传播做出了重要贡献。欢迎投稿或联系我们报道您的优秀成果！投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

StarGen：一种基于时空自回归框架和视频扩散模型的可扩展可控场景生成方法

这项研究的核心在于StarGen框架，它能够生成多视图一致的长视频，并支持稀疏视图插值、图像到视频生成以及布局驱动的场景生成等多种任务。实验结果显示，StarGen在生成质量、一致性以及场景扩展能力方面均超越了现有方法。

论文标题：StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation
论文地址：https://arxiv.org/pdf/2501.05763
项目主页：https://zju3dv.github.io/StarGen/

研究背景

近年来，3D重建和生成技术蓬勃发展，并呈现出融合互补的趋势。基于大规模模型的重建方法降低了对密集多视角数据的依赖，而生成模型则有效地用于补全稀疏视角下不可见区域。在生成领域，3D重建技术为2D生成模型向3D生成任务的迁移提供了关键支撑，主要通过两种途径：将2D概率分布蒸馏为3D表示，或基于2D生成图像重建3D表示。

然而，这些大规模模型面临一个共同挑战：有限的计算资源限制了单次推理所能处理的Token数量。虽然时间自回归方法通过关联当前和前一视频片段来生成长视频，但这种方法在较长时间跨度内难以保持时空一致性，误差累积问题会严重影响空间一致性。

相关工作

现有新视角生成方法主要分为三类：重建模型、生成模型以及两者结合的混合方法。

重建模型: 传统方法如NeRF和3D-GS生成高质量新视角，但依赖密集视角输入。基于前馈网络的方法如PixelNeRF和PixelSplat降低了对密集输入的需求，但缺乏生成能力，需要充分的图像覆盖才能获得完整的场景表达。
生成模型: GAN在早期取得了成功，但在全局一致性方面存在不足。扩散模型结合ControlNet等技术可以生成高质量图像并实现精确控制，但在长距离、高质量且多视图一致的视频生成方面受到计算资源限制。
混合方法: ViewCrafter等方法结合重建和生成，但点云作为空间约束会累积误差，且需要训练视频生成模型本身，限制了扩展性和通用性。

StarGen方法

^{图 1. 系统框架}