当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 生成越长越跑偏?浙大商汤新作StarGen让场景视频生成告别「短片魔咒」

生成越长越跑偏?浙大商汤新作StarGen让场景视频生成告别「短片魔咒」

2025-01-18 23:13:34 0浏览 收藏

对于一个科技周边开发者来说,牢固扎实的基础是十分重要的,golang学习网就来带大家一点点的掌握基础知识点。今天本篇文章带大家了解《生成越长越跑偏?浙大商汤新作StarGen让场景视频生成告别「短片魔咒」》,主要介绍了,希望对大家的知识积累有所帮助,快点收藏起来吧,否则需要时就找不到了!

浙江大学和商汤科技的研究人员提出了一种名为StarGen的新型时空自回归框架,用于实现可扩展且可控的场景生成。该框架巧妙地结合了空间和时间双重条件机制,将稀疏视图的3D几何信息与视频扩散模型有效融合,从而解决了复杂场景长距离生成中时空一致性难题,显著降低了误差累积。

图片

AIxiv专栏持续发布学术和技术前沿内容,至今已报道超过2000篇来自全球顶尖高校和企业实验室的论文,为学术交流与传播做出了重要贡献。欢迎投稿或联系我们报道您的优秀成果!投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

StarGen:一种基于时空自回归框架和视频扩散模型的可扩展可控场景生成方法

这项研究的核心在于StarGen框架,它能够生成多视图一致的长视频,并支持稀疏视图插值、图像到视频生成以及布局驱动的场景生成等多种任务。实验结果显示,StarGen在生成质量、一致性以及场景扩展能力方面均超越了现有方法。

图片

研究背景

近年来,3D重建和生成技术蓬勃发展,并呈现出融合互补的趋势。基于大规模模型的重建方法降低了对密集多视角数据的依赖,而生成模型则有效地用于补全稀疏视角下不可见区域。在生成领域,3D重建技术为2D生成模型向3D生成任务的迁移提供了关键支撑,主要通过两种途径:将2D概率分布蒸馏为3D表示,或基于2D生成图像重建3D表示。

然而,这些大规模模型面临一个共同挑战:有限的计算资源限制了单次推理所能处理的Token数量。虽然时间自回归方法通过关联当前和前一视频片段来生成长视频,但这种方法在较长时间跨度内难以保持时空一致性,误差累积问题会严重影响空间一致性。

相关工作

现有新视角生成方法主要分为三类:重建模型、生成模型以及两者结合的混合方法。

  • 重建模型: 传统方法如NeRF和3D-GS生成高质量新视角,但依赖密集视角输入。基于前馈网络的方法如PixelNeRF和PixelSplat降低了对密集输入的需求,但缺乏生成能力,需要充分的图像覆盖才能获得完整的场景表达。

  • 生成模型: GAN在早期取得了成功,但在全局一致性方面存在不足。扩散模型结合ControlNet等技术可以生成高质量图像并实现精确控制,但在长距离、高质量且多视图一致的视频生成方面受到计算资源限制。

  • 混合方法: ViewCrafter等方法结合重建和生成,但点云作为空间约束会累积误差,且需要训练视频生成模型本身,限制了扩展性和通用性。

StarGen方法

图片 图 1. 系统框架

StarGen框架包含三个主要部分:时空自回归框架、时空条件视频生成和下游任务实现。

时空自回归框架: 采用滑动窗口方式逐步生成长距离场景,每个窗口的生成依赖于上一窗口的时间条件图像和空间相邻图像。时间条件确保时间连续性,空间条件保证多视图一致性。

图片 图 2. 时空条件视频生成

时空条件视频生成: 利用大型重建模型(LRM)和视频扩散模型(VDM)生成高质量可控视频。空间条件图像的3D几何信息通过多视几何渲染生成特征图,并压缩到VDM潜在空间。时间条件图像通过VAE编码为隐特征,与空间条件特征融合,最终输入VDM进行条件控制生成。

下游任务: StarGen支持稀疏视图插值、图生视频和基于布局的城市生成等任务。

损失函数

StarGen采用三种损失函数:深度损失、潜在损失和扩散损失,分别优化深度图精度、特征空间一致性和生成序列质量。

图片 图 3. 损失函数

实验结果

StarGen在稀疏视图插值、图生视频和基于布局的城市生成任务上均取得了显著成果,在各项指标上优于现有方法。具体结果见论文中的表格和图像。(此处省略论文中的表格和gif图,因为无法直接复制粘贴并保持格式)

消融实验

消融实验验证了空间和时间条件对生成质量和一致性的重要贡献。

总而言之,StarGen框架为可扩展可控的场景生成提供了一种有效方案,在长距离视频生成中取得了突破性进展。

今天关于《生成越长越跑偏?浙大商汤新作StarGen让场景视频生成告别「短片魔咒」》的内容介绍就到此结束,如果有什么疑问或者建议,可以在golang学习网公众号下多多回复交流;文中若有不正之处,也希望回复留言以告知!

linux安装zookeeper能卸载吗linux安装zookeeper能卸载吗
上一篇
linux安装zookeeper能卸载吗
服务器大量php
下一篇
服务器大量php
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    511次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    498次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 千音漫语:智能声音创作助手,AI配音、音视频翻译一站搞定!
    千音漫语
    千音漫语,北京熠声科技倾力打造的智能声音创作助手,提供AI配音、音视频翻译、语音识别、声音克隆等强大功能,助力有声书制作、视频创作、教育培训等领域,官网:https://qianyin123.com
    117次使用
  • MiniWork:智能高效AI工具平台,一站式工作学习效率解决方案
    MiniWork
    MiniWork是一款智能高效的AI工具平台,专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具,提供精准智能解决方案,让复杂工作简单高效。
    113次使用
  • NoCode (nocode.cn):零代码构建应用、网站、管理系统,降低开发门槛
    NoCode
    NoCode (nocode.cn)是领先的无代码开发平台,通过拖放、AI对话等简单操作,助您快速创建各类应用、网站与管理系统。无需编程知识,轻松实现个人生活、商业经营、企业管理多场景需求,大幅降低开发门槛,高效低成本。
    129次使用
  • 达医智影:阿里巴巴达摩院医疗AI影像早筛平台,CT一扫多筛癌症急慢病
    达医智影
    达医智影,阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”,仅一次CT扫描即可高效识别多种癌症、急症及慢病,为疾病早期发现提供智能、精准的AI影像早筛解决方案。
    121次使用
  • 智慧芽Eureka:更懂技术创新的AI Agent平台,助力研发效率飞跃
    智慧芽Eureka
    智慧芽Eureka,专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景,通过专家级AI Agent精准执行任务,智能化工作流解放70%生产力,让您专注核心创新。
    126次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码