当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景

ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景

来源:机器之心 2024-10-22 20:45:43 0浏览 收藏

积累知识,胜过积蓄金银!毕竟在科技周边开发的过程中,会遇到各种各样的问题,往往都是一些细节知识点还没有掌握好而导致的,因此基础知识点的积累是很重要的。下面本文《ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景》,就带大家讲解一下知识点,若是你对本文感兴趣,或者是想搞懂其中某个知识点,就请你继续往下看吧~

数据空间研究中心是中国科学技术大学网络空间安全学院布局建设的创新型科研平台。中心于 2021 年 9 月 20 日正式揭牌成立,由吴曼青院士领衔、中青年教师为骨干,聚焦从数据到网络空间(From Data to Cyberspace),以数据重构网络空间为使命,瞄准网络空间、智能感知、大数据等领域的前沿问题,探索打造一支结构合理、优势互补的科技力量,服务国家重大需求。

来自中国科学技术大学数据空间研究中心、香港科技大学、香港理工大学以及奥胡斯大学的研究者们提出一种新的场景生成方法 DreamScene,只需要提供场景的文本就可以生成高质量,视角一致和可编辑的 3D 场景。

ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景

ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景

ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景


  • 项目主页:https://dreamscene-project.github.io/ 
  • 论文地址:https://arxiv.org/abs/2404.03575
  • 代码开源:https://github.com/DreamScene-Project/DreamScene

关键问题

基于蒸馏的文本生成 3D 方法通常采用预训练的 2D 文本到图像模型如 Stable Diffusion 作为先验,通过朝向物体中心的相机渲染优化生成物体的可微分 3D 表示。而文本生成 3D 场景方法需要从预定义的相机位置向外渲染,以生成这些有限视角的场景。

目前的文本生成 3D 场景方法(如下图所示)面临几个关键挑战,包括:

  • 低效的生成过程,常导致低质量的生成和较长的生成时间。
  • 不一致的 3D 场景视角,仅在有限视角下有着良好的渲染结果。
  • 无法将物体与环境分离,无法对单个物体进行灵活编辑。

ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景

技术方案

DreamScene 主要由形成模式采样(Formation Pattern Sampling)和相机采样 (Camera Sampling) 两部分组成,其中形成模式采样根据 3D 模型生成的规律由多时间步采样(Multi-timestep Sampling)、3D 高斯过滤(3D Gaussian Filtering)以及重建式生成(Reconstructive Generation)三种操作组成;

相机采样通过三阶段的策略逐步生成 3D 环境,保证场景全局的视角一致性。总体的算法流程如图所示,DreamScene 首先利用大语言模型(LLM)根据文本描述(prompt)分离出场景中的物体描述和环境描述。首先生成场景中的单个物体,DreamScene 利用 Point-E 得到相应的初始化点云,之后使用形成模式采样方法生成对应文本的 3D 表示;再将生成的物体根据布局放置在对应的位置上;最后对四周环境进行生成,DreamScene 将室内场景初始化为长方体,将室外场景初始化为半球体,通过三阶段优化,逐步优化远处环境,近处地面和整体的场景。

ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景


形成模式采样(Formation Pattern Sampling)主要使用多时间步采样(Multi-timestep Sampling),多时间步采样每次迭代过程中混合了多个 2D 扩散模型时间步长提供的指导信息,而这些时间步长通过在一个线性递减的滑动窗口上进行分层抽样得到,这种优化策略不仅保证了在优化过程中对 3D 内容的形状约束,同时可以丰富语义信息。

此外,生成的过量 3D 高斯会阻碍优化过程,因此 DreamScene 使用 3D 高斯过滤(3D Gaussian Filtering)在优化过程中过滤掉冗余的 3D 高斯,保留距离渲染平面较近且体积较大的 3D 高斯。在优化的后期阶段,使用较小步长 t 的信息可以提供一致但是精细纹理的信息,所以 DreamScene 使用重建式生成(Reconstructive Generation)方法来加速生成 3D 内容的合理表面纹理。

ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景

对于场景中的环境,DreamScene 使用一个渐进式的三阶段相机采样(Camera Sampling)策略优化环境生成。在相机采样的第一阶段,DreamScene 在场景中心的一定范围内进行相机位姿采样以生成周围环境(室内的墙壁、室外远处环境)的粗略表示(MTS 指导优化);在第二阶段,DreamScene 通过采样一些特定区域的相机位姿来生成粗糙的地面,并且会尽可能保证地面与周围环境接触部分的连贯性;在第三阶段,DreamScene 使用在前两阶段中所有的相机位姿来优化所有的的环境元素(MTS 指导优化),之后使用 3D 重建的方法以获得更合理的纹理和细节。

实验评估

对比试验  下图展示了 DreamScene 场景生成的定性对比实验,上半部分图像采用生成时出现的相机位姿渲染的,下图是在场景中随机选择的相机位姿渲染的。我们可以看到,Text2Room 和 Text2NeRF 只能在生成过程中遇到的相机位姿下生成令人满意的结果,DreamScene 实现了最佳的 3D 一致性,同时有着很高的生成质量。

ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景

下图展示了形成模式采样可以在短时间内根据文本提示生成高质量的 3D 表示,DreamGaussian 的速度更快但生成质量太低。

ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景


作者计算了环境生成阶段的生成时间。如下表的左侧显示,具有编辑功能的环境生成方法中 DreamScene 的时间最短,右侧显示了用户研究,其中 DreamScene 在一致性和合理性方面明显优于其他 SOTA 方法,生成质量最高。

ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景

一致性 如下图所示 DreamScene 的生成结果在较高生成质量的同时,保证了较好的 3D 一致性。

ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景

编辑性 DreamScene 可以添加或删除对象或者通过调整对象的仿射变量的值来重新设计其在场景中的位置。在进行这些编辑时,用户需要在物体的原始位置和新位置重新采样相机姿势,重新优化地面和周围方向。此外,用户还可以改变文本提示来改变场景中的环境或对象的样式。

ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景


消融实验 在 “A DSLR photo of Iron Man” 提示下,经过 30 分钟优化后的结果。如下图所示,与 DreamTime 和 DreamFusion 中提到的分数蒸馏采样 (SDS) 相比,多时间步采样形成了更好的几何结构和纹理。形成模式采样是在多时间步采样的基础上建立起来的,采用重建式生成的方法来创建更加合理的纹理结构,在指导 3D 内容优化方面十分具有优越性。

ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景

总结

本文介绍了一种新颖的文本到 3D 场景生成策略 DreamScene。通过生成模式采样和相机采样策略,将物体和环境整合在一起,解决了目前文本到 3D 场景生成方法中存在的低效、不一致和可编辑性有限等问题。广泛的实验证明,DreamScene 是三维场景生成领域的一项里程碑式成就,在众多领域,如游戏、影视和房屋设计中有着巨大的应用潜力。

ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景

ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景

今天关于《ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于理论,场景生成,3D 场景编辑的内容请关注golang学习网公众号!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
电脑无线网开关怎么开?电脑无线网开关怎么开?
上一篇
电脑无线网开关怎么开?
华彩人生电脑版怎么下载不了?
下一篇
华彩人生电脑版怎么下载不了?
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    511次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    498次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 千音漫语:智能声音创作助手,AI配音、音视频翻译一站搞定!
    千音漫语
    千音漫语,北京熠声科技倾力打造的智能声音创作助手,提供AI配音、音视频翻译、语音识别、声音克隆等强大功能,助力有声书制作、视频创作、教育培训等领域,官网:https://qianyin123.com
    164次使用
  • MiniWork:智能高效AI工具平台,一站式工作学习效率解决方案
    MiniWork
    MiniWork是一款智能高效的AI工具平台,专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具,提供精准智能解决方案,让复杂工作简单高效。
    155次使用
  • NoCode (nocode.cn):零代码构建应用、网站、管理系统,降低开发门槛
    NoCode
    NoCode (nocode.cn)是领先的无代码开发平台,通过拖放、AI对话等简单操作,助您快速创建各类应用、网站与管理系统。无需编程知识,轻松实现个人生活、商业经营、企业管理多场景需求,大幅降低开发门槛,高效低成本。
    166次使用
  • 达医智影:阿里巴巴达摩院医疗AI影像早筛平台,CT一扫多筛癌症急慢病
    达医智影
    达医智影,阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”,仅一次CT扫描即可高效识别多种癌症、急症及慢病,为疾病早期发现提供智能、精准的AI影像早筛解决方案。
    166次使用
  • 智慧芽Eureka:更懂技术创新的AI Agent平台,助力研发效率飞跃
    智慧芽Eureka
    智慧芽Eureka,专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景,通过专家级AI Agent精准执行任务,智能化工作流解放70%生产力,让您专注核心创新。
    174次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码