当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 生成越长越跑偏?浙大商汤新作StarGen让场景视频生成告别「短片魔咒」

生成越长越跑偏?浙大商汤新作StarGen让场景视频生成告别「短片魔咒」

2025-01-18 23:13:34 0浏览 收藏

对于一个科技周边开发者来说,牢固扎实的基础是十分重要的,golang学习网就来带大家一点点的掌握基础知识点。今天本篇文章带大家了解《生成越长越跑偏?浙大商汤新作StarGen让场景视频生成告别「短片魔咒」》,主要介绍了,希望对大家的知识积累有所帮助,快点收藏起来吧,否则需要时就找不到了!

浙江大学和商汤科技的研究人员提出了一种名为StarGen的新型时空自回归框架,用于实现可扩展且可控的场景生成。该框架巧妙地结合了空间和时间双重条件机制,将稀疏视图的3D几何信息与视频扩散模型有效融合,从而解决了复杂场景长距离生成中时空一致性难题,显著降低了误差累积。

图片

AIxiv专栏持续发布学术和技术前沿内容,至今已报道超过2000篇来自全球顶尖高校和企业实验室的论文,为学术交流与传播做出了重要贡献。欢迎投稿或联系我们报道您的优秀成果!投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

StarGen:一种基于时空自回归框架和视频扩散模型的可扩展可控场景生成方法

这项研究的核心在于StarGen框架,它能够生成多视图一致的长视频,并支持稀疏视图插值、图像到视频生成以及布局驱动的场景生成等多种任务。实验结果显示,StarGen在生成质量、一致性以及场景扩展能力方面均超越了现有方法。

图片

研究背景

近年来,3D重建和生成技术蓬勃发展,并呈现出融合互补的趋势。基于大规模模型的重建方法降低了对密集多视角数据的依赖,而生成模型则有效地用于补全稀疏视角下不可见区域。在生成领域,3D重建技术为2D生成模型向3D生成任务的迁移提供了关键支撑,主要通过两种途径:将2D概率分布蒸馏为3D表示,或基于2D生成图像重建3D表示。

然而,这些大规模模型面临一个共同挑战:有限的计算资源限制了单次推理所能处理的Token数量。虽然时间自回归方法通过关联当前和前一视频片段来生成长视频,但这种方法在较长时间跨度内难以保持时空一致性,误差累积问题会严重影响空间一致性。

相关工作

现有新视角生成方法主要分为三类:重建模型、生成模型以及两者结合的混合方法。

  • 重建模型: 传统方法如NeRF和3D-GS生成高质量新视角,但依赖密集视角输入。基于前馈网络的方法如PixelNeRF和PixelSplat降低了对密集输入的需求,但缺乏生成能力,需要充分的图像覆盖才能获得完整的场景表达。

  • 生成模型: GAN在早期取得了成功,但在全局一致性方面存在不足。扩散模型结合ControlNet等技术可以生成高质量图像并实现精确控制,但在长距离、高质量且多视图一致的视频生成方面受到计算资源限制。

  • 混合方法: ViewCrafter等方法结合重建和生成,但点云作为空间约束会累积误差,且需要训练视频生成模型本身,限制了扩展性和通用性。

StarGen方法

图片 图 1. 系统框架

StarGen框架包含三个主要部分:时空自回归框架、时空条件视频生成和下游任务实现。

时空自回归框架: 采用滑动窗口方式逐步生成长距离场景,每个窗口的生成依赖于上一窗口的时间条件图像和空间相邻图像。时间条件确保时间连续性,空间条件保证多视图一致性。

图片 图 2. 时空条件视频生成

时空条件视频生成: 利用大型重建模型(LRM)和视频扩散模型(VDM)生成高质量可控视频。空间条件图像的3D几何信息通过多视几何渲染生成特征图,并压缩到VDM潜在空间。时间条件图像通过VAE编码为隐特征,与空间条件特征融合,最终输入VDM进行条件控制生成。

下游任务: StarGen支持稀疏视图插值、图生视频和基于布局的城市生成等任务。

损失函数

StarGen采用三种损失函数:深度损失、潜在损失和扩散损失,分别优化深度图精度、特征空间一致性和生成序列质量。

图片 图 3. 损失函数

实验结果

StarGen在稀疏视图插值、图生视频和基于布局的城市生成任务上均取得了显著成果,在各项指标上优于现有方法。具体结果见论文中的表格和图像。(此处省略论文中的表格和gif图,因为无法直接复制粘贴并保持格式)

消融实验

消融实验验证了空间和时间条件对生成质量和一致性的重要贡献。

总而言之,StarGen框架为可扩展可控的场景生成提供了一种有效方案,在长距离视频生成中取得了突破性进展。

今天关于《生成越长越跑偏?浙大商汤新作StarGen让场景视频生成告别「短片魔咒」》的内容介绍就到此结束,如果有什么疑问或者建议,可以在golang学习网公众号下多多回复交流;文中若有不正之处,也希望回复留言以告知!

linux安装zookeeper能卸载吗linux安装zookeeper能卸载吗
上一篇
linux安装zookeeper能卸载吗
服务器大量php
下一篇
服务器大量php
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    543次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    516次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    500次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    485次学习
查看更多
AI推荐
  • ljg-skills -
    ljg-skills
    ljg-skills 是李继刚开源的 AI 技能与提示词集合,面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板,适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。
    3246次使用
  • MELO音乐 - AI 音乐生成平台,支持多模态创作能力
    MELO音乐
    MELO音乐是一站式AI视频与音乐制作助手,对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐,MELO为你免费谱曲,轻松做同款!
    2996次使用
  • UniScribe - AI 免费在线音视频转文字平台
    UniScribe
    UniScribe 是一款 AI 音视频转文字与内容整理工具,支持上传音频、视频文件或粘贴 YouTube 链接,自动生成转写文本、摘要、思维导图和关键问题,并支持多格式导出,适合会议记录、课程学习、访谈整理和内容创作复盘。
    2945次使用
  • 剧云 - 免费 AI 智能中文剧本创作平台
    剧云
    剧云是专业中文剧本创作平台,安全稳定运行十余年,集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能,数据安全防护,轻松高效创作剧本。
    3159次使用
  • 万象有声 - AI 一站式有声内容创作平台
    万象有声
    万象有声,一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具,可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验,让有声书制作更简单!
    3108次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码