当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

来源:51CTO.COM 2023-10-21 07:47:12 0浏览 收藏

本篇文章主要是结合我之前面试的各种经历和实战开发中遇到的问题解决经验整理的,希望这篇《4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍》对你有很大帮助!欢迎收藏,分享给更多的需要的朋友学习~

当 4K 画质、60 帧视频在某些 APP 上还只能开会员观看时,AI 研究者已经把 3D 动态合成视频做到了 4K 级别,而且画面相当流畅。

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

在现实生活中,我们接触的大多数视频都是 2D 的。在观看这种视频时,我们是没有办法选择观看视角的,比如走到演员中间,或者走到空间的某个角落。VR、AR 设备的出现弥补了这一缺陷,它们提供的 3D 视频允许我们变换视角、甚至随意走动,沉浸感大大提升。

但是,这种 3D 动态场景的合成一直是个难点,无论是在画质上还是流畅度上。

最近,来自浙江大学、像衍科技和蚂蚁集团的研究者对这个问题发起了挑战。在一篇题为「4K4D: Real-Time 4D View Synthesis at 4K Resolution」的论文中,他们提出了一种名为4K4D的点云表示方法,大大提升了高分辨率3D动态场景合成的渲染速度。具体来说,使用 RTX 4090 GPU,他们的方法能以 4K 分辨率进行渲染,帧率可达80 FPS;以1080p分辨率进行渲染时,帧率可达400FPS。总体来看,它的速度是以前方法的30多倍,而且渲染质量达到了SOTA。

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

以下是论文简介。

论文概览

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍


  • 论文链接:https://arxiv.org/pdf/2310.11448.pdf
  • 项目链接:https://zju3dv.github.io/4k4d/

动态视图合成旨在从捕获的视频中重建动态 3D 场景,并创建沉浸式虚拟回放,这是计算机视觉和计算机图形学中长期研究的问题。这种技术实用性的关键在于它能够以高保真度实时渲染,使其能够应用于 VR/AR、体育广播和艺术表演捕捉。传统方法将动态 3D 场景表示为纹理网格序列,并使用复杂的硬件进行重建。因此,它们通常仅限于受控环境。

最近,隐式神经表示在通过可微渲染从 RGB 视频重建动态 3D 场景方面取得了巨大成功。例如《Neural 3d video synthesis from multi-view video》将目标场景建模为动态辐射场,利用体渲染合成图像,并与输入图像进行对比优化。尽管动态视图合成结果令人印象深刻,但由于网络评估昂贵,现有方法通常需要几秒钟甚至几分钟才能以 1080p 分辨率渲染一张图像。

受静态视图合成方法的启发,一些动态视图合成方法通过降低网络评估的成本或次数来提高渲染速度。通过这些策略,MLP Maps 能够以 41.7 fps 的速度渲染前景动态人物。然而,渲染速度的挑战仍然存在,因为 MLP  Maps 的实时性能只有在合成中等分辨率(384×512)的图像时才能实现。当渲染 4K 分辨率的图像时,它的速度降低到只有 1.3 FPS。

在这篇论文中,研究者提出了一种新的神经表示 ——4K4D,用于建模和渲染动态 3D 场景。如图 1 所示,4K4D 在渲染速度上明显优于以前的动态视图合成方法,同时在渲染质量上具有竞争力。

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

作者表示,他们的核心创新在于 4D 点云表示和混合外观模型。具体而言,对于动态场景,他们使用空间雕刻算法获得粗点云序列,并将每个点的位置建模为可学习向量。他们还引入 4D 特征网格,为每个点分配特征向量,并将其输入 MLP 网络,以预测点的半径、密度和球谐函数(SH)系数。4D 特征网格自然地在点云上应用了空间正则化,使得优化更加稳健。基于 4K4D,研究者开发了一种可微深度剥离算法,利用硬件光栅化实现前所未有的渲染速度。

研究者发现,基于 MLP 的 SH 模型难以表示动态场景的外观。为了缓解这个问题,他们还引入了一个图像混合模型来与 SH 模型结合,以表示场景的外观。一个重要的设计是,他们使图像混合网络独立于观看方向,因此可以在训练后预先计算,以提高渲染速度。作为一把双刃剑,该策略使图像混合模型沿观看方向离散。使用连续 SH 模型可以弥补这个问题。与仅使用 SH 模型的 3D Gaussian Splatting 相比,研究者提出的混合外观模型充分利用了输入图像捕获的信息,从而有效地提高了渲染质量。

为了验证新方法的有效性,研究者在多个广泛使用的多视图动态新视图合成数据集上评估了 4K4D,包括 NHR、ENeRF-Outdoo、DNA-Rendering 和 Neural3DV。广泛的实验表明,4K4D 不仅渲染速度快了几个数量级,而且在渲染质量方面也明显优于 SOTA 技术。使用 RTX 4090 GPU,新方法在 DNA-Rendering 数据集上达到 400 FPS,分辨率为 1080p;在 ENeRF-Outdoor 数据集上达到 80 FPS,分辨率为 4k。

方法介绍

给定捕获动态 3D 场景的多视图视频,本文旨在重建目标场景并实时地进行视图合成。模型架构图如图 2 所示:

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

接着文中介绍了用点云建模动态场景的相关知识,他们从 4D 嵌入、几何模型以及外观模型等角度展开。

4D 嵌入:给定目标场景的粗点云,本文使用神经网络和特征网格表示其动态几何和外观。具体来说,本文首先定义了六个特征平面 θ_xy、θ_xz、θ_yz、θ_tx、θ_ty 和 θ_tz,并采用 K-Planes 策略,利用这六个平面来建模一个 4D 特征场 Θ(x, t):

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

几何模型:基于粗点云,动态场景几何结构通过学习每个点上的三个属性(entries)来表示,即位置 p ∈ R^3 、半径 r ∈ R 和密度 σ ∈ R。然后借助这些点,计算空间点 x 的体积密度。点位置 p 被建模为一个可优化的向量。通过将 Eq.(1) 中的特征向量 f 馈送到 MLP 网络中来预测半径 r 和密度 σ。

外观模型:如图 2c 所示,本文使用图像混合技术和球谐函数(SH)模型来构建混合外观模型,其中图像混合技术表示离散视图外观 c_ibr,SH 模型表示连续的依赖于视图的外观 c_sh。对于第 t 帧处的点 x,其在视图方向 d 上的颜色为:

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

可微深度剥离

本文提出的动态场景表示借助深度剥离算法可以渲染成图像。

研究者开发了一个自定义着色器来实现由 K 个渲染通道组成的深度剥离算法。即对于一个特定的像素 u,研究者进行了多步处理,最后,经过 K 次渲染后,像素 u 得到一组排序点 {x_k|k = 1, ..., K}。

基于这些点 {x_k|k = 1, ..., K},得到体渲染中像素 u 的颜色表示为:

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

在训练过程中,给定渲染的像素颜色 C (u),本文将其与真实像素颜色 C_gt (u) 进行比较,并使用以下损失函数以端到端的方式优化模型:

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

除此以外,本文还应用了感知损失:

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

以及掩码损失:

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

最终的损失函数定义为:

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

实验及结果

本文在 DNA-Rendering、ENeRF-Outdoor、 NHR 以及 Neural3DV 数据集上评估了 4K4D 方法。

在 DNA-Rendering 数据集上的结果如表 1 所示,结果显示,4K4D 渲染速度比具有 SOTA 性能的 ENeRF 快 30 多倍,并且渲染质量还更好。

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

在 DNA-Rendering 数据集上的定性结果如图 5 所示,KPlanes 无法对 4D 动态场景下的详细外观和几何形状进行恢复,而其他基于图像的方法产生了高质量的外观。然而,这些方法往往会在遮挡和边缘周围产生模糊的结果,导致视觉质量下降,相反,4K4D 可以在超过 200 FPS 的情况下产生更高保真度的渲染。

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

接下来,实验展示了不同方法在 ENeRFOutdoor 数据集上的定性和定量结果。如表 2 所示,4K4D 在以超过 140 FPS 的速度进行渲染时仍然取得了明显更好的结果。

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

而其他方法,如 ENeRF 产生了模糊的结果;IBRNet 的渲染结果包含图像边缘周围的黑色伪影,如图 3 所示;K-Planse 无法重建动态人体以及不同的背景区域。

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

表 6 展示了可微深度剥离算法的有效性,4K4D 比基于 CUDA 的方法快 7 倍以上。

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

本文还在表 7 中报告了 4K4D 在不同分辨率的不同硬件(RTX 3060、3090 和 4090)上的渲染速度。

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

更多细节请参见原论文。

今天关于《4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于AI,模型的内容请关注golang学习网公众号!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
OpenAI图像检测工具曝光,CTO:AI生成的99%都能认出OpenAI图像检测工具曝光,CTO:AI生成的99%都能认出
上一篇
OpenAI图像检测工具曝光,CTO:AI生成的99%都能认出
通过人工智能部署增强边缘智能
下一篇
通过人工智能部署增强边缘智能
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 笔灵AI生成答辩PPT:高效制作学术与职场PPT的利器
    笔灵AI生成答辩PPT
    探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
    28次使用
  • 知网AIGC检测服务系统:精准识别学术文本中的AI生成内容
    知网AIGC检测服务系统
    知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
    42次使用
  • AIGC检测服务:AIbiye助力确保论文原创性
    AIGC检测-Aibiye
    AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
    39次使用
  • 易笔AI论文平台:快速生成高质量学术论文的利器
    易笔AI论文
    易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
    51次使用
  • 笔启AI论文写作平台:多类型论文生成与多语言支持
    笔启AI论文写作平台
    笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
    42次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码