当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 一键生成山川、河流，风格多样，从2D图像中学习生成无限3D场景

一键生成山川、河流，风格多样，从2D图像中学习生成无限3D场景

来源：51CTO.COM 2023-05-02 17:12:10 0浏览收藏

热门推荐

漫画APP

漫画阅读推荐，热门漫画资源更好找

在科技周边实战开发的过程中，我们经常会遇到一些这样那样的问题，然后要卡好半天，等问题解决了才发现原来一些细节知识点还是没有掌握好。今天golang学习网就整理分享《一键生成山川、河流，风格多样，从2D图像中学习生成无限3D场景》，聊聊，希望可以帮助到正在努力赚钱的你。

一键生成山川、河流，风格多样，从2D图像中学习生成无限3D场景

项目主页：https://scene-dreamer.github.io/
代码：https://github.com/FrozenBurning/SceneDreamer
论文：https://arxiv.org/abs/2302.01330
在线 Demo：https://huggingface.co/spaces/FrozenBurning/SceneDreamer

为满足元宇宙中对 3D 创意工具不断增长的需求，三维场景生成最近受到了相当多的关注。3D 内容创作的核心是逆向图形学，旨在从 2D 观测中恢复 3D 表征。考虑到创建 3D 资产所需的成本和劳动力，3D 内容创作的最终目标将是从海量的互联网二维图像中学习三维生成模型。最近关于三维感知生成模型的工作在一定程度上解决了这个问题，多数工作利用 2D 图像数据生成以物体为中心的内容（例如人脸、人体或物体）。然而，这类生成任务的观测空间处于有限域中，生成的目标占据了三维空间的有限区域。这就产生了一个问题，我们是否能从海量互联网 2D 图像中学习到无界场景的 3D 生成模型？比如能够覆盖任意大区域，且无限拓展的生动自然景观（如下所示）。

一键生成山川、河流，风格多样，从2D图像中学习生成无限3D场景

本文，来自南洋理工大学 S-Lab 的研究者提出了一个新的框架 SceneDreamer，专注于从海量无标注自然图片中学习无界三维场景的生成模型。通过采样场景噪声和风格噪声，SceneDreamer 能够渲染多样风格的自然场景，同时保持极高的三维一致性，支持相机自由地在场景中漫游。

想要达成这样的目标，我们面临着如下三个挑战：

1）无界场景缺乏高效三维表征：无边界场景常常占据了一个任意大的欧氏空间，这凸显了高效且具备表现力的底层三维表征的重要性。

2）缺乏内容对齐：已有三维生成工作使用具备对齐性质的数据集（如人脸、人体、常用物体等），这些有界场景中的目标物体通常具备类似的语义、相近的尺度位置和方向。然而，在海量的无标注二维图像中，不同物体或场景常常具备迥异的语义，且拥有多变的尺度、位置和方向。这样缺乏对齐的性质会带来生成模型训练的不稳定性。

3）缺乏相机位姿先验：三维生成模型依赖于准确相机位姿或相机位姿分布的先验来实现图像到三维表征的逆向渲染过程。但互联网自然图像来源于不同的场景和像源，让我们无法获取其相机位姿准确信息或先验。

为此我们提出了一个原则性的对抗学习框架 SceneDreamer，从海量的无标注自然图像中学习生成无界三维场景。该框架包含三个主要模块：1）高效且高表现力的鸟瞰（BEV）三维场景表征；2）学习场景通用表征的生成式神经哈希网格；3）由风格驱动的体积渲染器，并经过对抗学习的方式直接从二维图像中进行训练。

一键生成山川、河流，风格多样，从2D图像中学习生成无限3D场景

上图展示了 SceneDreamer 的主要结构。在推理过程中，我们可以随机采样一个代表场景结构的单纯形噪声一键生成山川、河流，风格多样，从2D图像中学习生成无限3D场景和代表场景风格的高斯噪声作为输入，我们的模型能够渲染大尺度三维场景，同时支持相机自由移动。首先我们从场景噪声中获得由高度图和语义图组成的 BEV 场景表征。然后，利用 BEV 表征显式地构建局部三维场景窗口来执行相机采样，同时将 BEV 表征编码为场景特征一键生成山川、河流，风格多样，从2D图像中学习生成无限3D场景。我们使用采样点的坐标和场景特征来查询由生成式的神经哈希网格编码的高维空间，以获得空间差异和场景差异的隐变量。最后我们通过由风格噪声调制的体积渲染器将相机光线上的隐变量进行整合，最终得到渲染的二维图像。

为了学习无边界三维场景生成，我们希望场景应当被高效高质量进行表达。我们提出使用由语义图和高度图组成的 BEV 表征来表达一个大尺度三维场景。具体而言，我们通过无参建图的方法从场景噪声中获得俯瞰视角下高度图和语义图。高度图记录了场景表面点的高度信息，而语义图则记录了对应点的语义标签。而我们使用的由语义图和高度图组成的 BEV 表征能够：1）在 n^2 复杂度上表示三维场景；2）能够得到三维点对应的语义，从而解决内容对齐的问题。3）支持使用滑动窗口的方式来合成无限大场景，避免了训练时固定场景分辨率导致泛化性的问题。

为了编码能够泛化于场景之间的三维表征，我们需要将空间三维场景表征编码至隐空间中以便于对抗学习的训练。值得注意的是，对于一个大尺度的无界场景，通常只有其表面可见点对于渲染时是有意义的，这意味着其参数化形式应当是紧凑且稀疏的。已有方法如 tri-plane 或三维卷积等将空间建模为一个整体，模型能力会大量的浪费在建模不可见表面点上。受到神经哈希网格在三维重建任务上成功的启发，我们将其空间紧凑和高效的性质推广到生成任务上，提出使用生成式神经哈希网格来建模跨场景的三维空间特征。具体而言是使用哈希函数 F_theta 来将场景特征 f_s 和空间点坐标 x 映射到多尺度混合的可学习参数上：

一键生成山川、河流，风格多样，从2D图像中学习生成无限3D场景