Meta、CMU联手推出VR史诗级升级!最新HyperReel模型实现高保真6自由度视频渲染
积累知识,胜过积蓄金银!毕竟在开发的过程中,会遇到各种各样的问题,往往都是一些细节知识点还没有掌握好而导致的,因此基础知识点的积累是很重要的。下面本文《Meta、CMU联手推出VR史诗级升级!最新HyperReel模型实现高保真6自由度视频渲染》,就带大家讲解一下知识点,若是你对本文感兴趣,或者是想搞懂其中某个知识点,就请你继续往下看吧~
最近,由Meta和卡内基梅隆大学提出的6-DoF视频表征模型——HyperReel,可能预示着一个全新的VR「杀手级」应用即将诞生!
所谓「六自由度视频」(6-DoF),简单来说就是一个超高清的4D体验式回放。
其中,用户可以完全「置身于」动态场景里面,并且可以自由地移动。而当他们任意改变自己的头部位置(3 DoF)和方向(3 DoF)时,与之相应的视图也会随之生成。
论文地址:https://arxiv.org/abs/2301.02238
与之前的工作相比,HyperReel最大的优势在于内存和计算效率,而这两点对于便携式VR头显来说都至关重要。
而且只需采用vanilla PyTorch,HyperReel就能在单张英伟达RTX 3090上,以每秒18帧的速度实现百万像素分辨率的渲染。
太长不看版:
1. 提出一种可在高分辨率下实现高保真度、高帧率的渲染的光线条件采样预测网络,以及一种紧凑且内存高效的动态体积表征;
2. 6-DoF视频表征方法HyperReel结合了以上两个核心部分,可以在实时渲染百万像素分辨率的同时,实现速度、质量和内存之间的理想平衡;
3. HyperReel在内存需求、渲染速度等多个方面均优于其他方法。
论文介绍
体积场景表征(volumetric scene representation)能够为静态场景提供逼真的视图合成,并构成了现有6-DoF视频技术的基础。
然而,驱动这些表征的体积渲染程序,需要在质量、渲染速度和内存效率方面,进行仔细的权衡。
现有的方法有一个弊端——不能同时实现实时性能、小内存占用和高质量渲染,而在极具挑战性的真实场景中,这些都是极为重要的。
为了解决这些问题,研究人员提出了HyperReel——一种基于NeRF技术(神经辐射场)的6-DoF视频表征方法。
其中,HyperReel的两个核心部分是:
1. 一个光线条件下的采样预测网络,能够在高分辨率下进行高保真、高帧率的渲染;
2. 一个紧凑且内存高效的动态体积表征。
与其他方法相比,HyperReel的6-DoF视频管线不仅在视觉质量上表现极佳,而且内存需求也很小。
同时,HyperReel无需任何定制的CUDA代码,就能在百万像素分辨率下实现18帧/秒的渲染速度。
具体来说,HypeReel通过结合样本预测网络和基于关键帧的体积表征法,从而实现了高渲染质量、速度和内存效率之间的平衡。
其中的样本预测网络,既能加速体积渲染,又能提高渲染质量,特别是对于具有挑战性的视图依赖性的场景。
而在基于关键帧的体积表征方面,研究人员采用的是TensoRF的扩展。
这种方法可以在内存消耗与单个静态帧TensoRF大致相同的同时,凑地表征了一个完整的视频序列。
实时演示
接下来,我们就实时演示一下,HypeReel在512x512像素分辨率下动态和静态场景的渲染效果。
值得注意的是,研究人员在Technicolor和Shiny场景中使用了更小的模型,因此渲染的帧率大于40 FPS。对于其余的数据集则使用完整模型,不过HypeReel仍然能够提供实时推理。
Technicolor
Shiny
Stanford
Immersive
DoNeRF
实现方法
为了实现HeperReel,首先要考虑的问题,就是要优化静态视图合成的体积表征。
像NeRF这样的体积表征,就是对静态场景在3D空间中的每一个点的密度和外观,进行建模。
更具体地说,通过函数将位置x和方向
沿着⼀条射线映射到颜色
和密度σ(x)。
此处的可训练参数θ,可以是神经网络权重、N维数组条目,或两者的组合。
然后就可以渲染静态场景的新视图
其中表征从o到
的透射率。
在实践中,可以通过沿给定射线获取多个样本点,然后使用数值求积来计算方程式1:
其中权重指定了每个样本点的颜色对输出的贡献。
体积渲染的网格示例
在静态场景的HyperReel中,给定一组图像和相机姿势,而训练目标就是重建与每条光线相关的测量颜色。
大多数场景是由实体物体组成的,这些物体的表面位于3D场景体积内的一个2D流形上。在这种情况下,只有一小部分样本点会影响每条光线的渲染颜色。
因此,为了加速体积渲染,研究人员希望只对非零的点,查询颜色和不透明度。
如下图所示,研究人员使用前馈网络来预测一组样本位置。具体来说,就是使用样本预测网络
,将射线
映射到样本点
,以获取体积等式2中的渲染。
这里,研究人员使用Plucker的参数化来表征光线。
但是这其中有一个问题:给网络太多的灵活性,可能会对视图合成质量产生负面影响。例如,如果(x1, . . . , xn) 是完全任意的点,那么渲染可能看起来不是多视图⼀致的。
为了解决这个问题,研究人员选择用样本预测网络来预测一组几何基元G1, ..., Gn的参数,其中基元的参数可以根据输入射线的不同而变化。为了得到样本点,将射线与每个基元相交。
如图a所示,给定源自相机原点o并沿方向ω传播的输入光线后, 研究人员首先使用Plucker坐标,重新对光线进行参数化。
如图b所示,一个网络将此射线作为输入,输出一组几何基元{}(如轴对齐的平面和球体)和位移矢量{}的参数。
如图c所示,为了生成用于体积渲染的样本点{},研究人员计算了射线和几何基元之间的交点,并将位移矢量添加到结果中。预测几何基元的好处是使采样信号平滑,易于插值。
位移矢量为采样点提供了额外的灵活性,能够更好地捕捉到复杂的视线依赖的外观。
如图d所示,最终,研究人员通过公式2进行体积渲染,产生一个像素颜色,并根据相应的观察结果,对它进行了监督训练。
基于关键帧的动态体积
通过上述办法,就可以有效地对3D场景体积进行采样。
如何表征体积呢?在静态情况下,研究人员使用的是内存有效的张量辐射场(TensoRF)方法;在动态情况下,就将TensoRF扩展到基于关键帧的动态体积表征。
下图解释了从基于关键帧的表征中,提取动态的样本点表征的过程。
如图1所示,首先,研究人员使用从样本预测网络输出的速度{},将时间处的样本点{}平移到最近的关键帧中。
然后,如图2所示,研究人员查询了时空纹理的外积,产生了每个样本点的外观特征,然后通过公式10将其转换成颜色。
通过这样的过程,研究人员提取了每个样本的的不透明度。
结果对比
静态场景的比较
在此,研究人员将HyperReel与现有的静态视图合成方法(包括NeRF、InstantNGP和三种基于采样网络的方法)进行了比较。
- DoNeRF数据集
DoNeRF数据集包含六个合成序列,图像分辨率为800×800像素。
如表1所示,HyperReel的方法在质量上优于所有基线,并在很大程度上提高了其他采样网络方案的性能。
同时,HyperReel是用vanilla PyTorch实现的,可在单张RTX 3090 GPU上以6.5 FPS的速度渲染800×800像素的图像(或者用Tiny模型实现29 FPS的渲染)。
此外,与R2L的88层、256个隐藏单元的深度MLP相比,研究人员提出的6层、256个隐藏单元的网络外加TensoRF体积骨干的推理速度更快
- LLFF数据集
LLFF数据集包含8个具有1008×756像素图像的真实世界序列。
如表1所示,HyperReel的方法优于DoNeRF、AdaNeRF、TermiNeRF和InstantNGP,但取得的质量比NeRF略差。
由于错误的相机校准和输入视角的稀疏性,这个数据集对显式体积表征来说是一个巨大的挑战。
动态场景的比较
- Technicolor数据集
Technicolor光场数据集包含了由时间同步的4×4摄像机装置拍摄的各种室内环境的视频,其中每个视频流中的每张图片都是2048×1088像素。
研究人员将HyperReel和Neural 3D Video在全图像分辨率下对这个数据集的五个序列(Birthday, Fabien, Painter, Theater, Trains)进行比较,每个序列有50帧长。
如表2所示,HyperReel的质量超过了Neural 3D Video,同时每个序列的训练时间仅为1.5个小时(而不是Neural 3D的1000多个小时),并且渲染速度更快。
- Neural 3D Video数据集
Neural 3D Video数据集包含6个室内多视图视频序列,由20台摄像机以2704×2028像素的分辨率拍摄。
如表2所示,HyperReel在这个数据集上的表现超过了所有的基线方法,包括NeRFPlayer和StreamRF等最新工作。
特别是,HyperReel在数量上超过了NeRFPlayer,渲染速度是其40倍左右;在质量上超过了StreamRF,尽管其采用Plenoxels为骨干的方法(使用定制的CUDA内核来加快推理速度)渲染速度更快。
此外,HyperReel平均每帧消耗的内存比StreamRF和NeRFPlayer都要少得多。
- 谷歌Immersive数据集
谷歌Immersive数据集包含了各种室内和室外环境的光场视频。
如表2所示,HyperReel在质量上比NeRFPlayer的要好1 dB,同时渲染速度也更快。
有些遗憾的是,HyperReel目前还没有达到VR所要求的渲染速度(理想情况下为72FPS,立体声)。
不过,由于该方法是在vanilla PyTorch中实现的,因此可以通过比如自定义的CUDA内核等工作,来进一步优化性能。
作者介绍
论文一作Benjamin Attal,目前在卡内基梅隆机器人研究所攻读博士学位。研究兴趣包括虚拟现实,以及计算成像和显示。
到这里,我们也就讲完了《Meta、CMU联手推出VR史诗级升级!最新HyperReel模型实现高保真6自由度视频渲染》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于AI的知识点!

- 上一篇
- 2022 年用于挖掘加密货币的最佳笔记本电脑

- 下一篇
- 自动化的未来:2023年加速云的采用
-
- 不安的溪流
- 赞 👍👍,一直没懂这个问题,但其实工作中常常有遇到...不过今天到这,帮助很大,总算是懂了,感谢博主分享技术贴!
- 2023-04-27 03:17:56
-
- 大气的黑裤
- 这篇博文真是及时雨啊,细节满满,真优秀,码住,关注大佬了!希望大佬能多写科技周边相关的文章。
- 2023-04-20 06:56:16
-
- 科技周边 · 人工智能 | 33分钟前 |
- Claude2.1对战ChatGPT4:谁更胜一筹?
- 319浏览 收藏
-
- 科技周边 · 人工智能 | 38分钟前 |
- AI+豆包设计道具,详细操作教程分享
- 198浏览 收藏
-
- 科技周边 · 人工智能 | 40分钟前 |
- PerplexityAI报告导出方法与格式解析
- 211浏览 收藏
-
- 科技周边 · 人工智能 | 42分钟前 |
- ChatGPT代码编写技巧详解
- 347浏览 收藏
-
- 科技周边 · 人工智能 | 44分钟前 |
- Diffusers图像生成教程:扩散模型推理详解
- 118浏览 收藏
-
- 科技周边 · 人工智能 | 45分钟前 |
- AIOverviews疫情预测应用解析
- 125浏览 收藏
-
- 科技周边 · 人工智能 | 53分钟前 |
- 调用DALL·E生成图像全攻略
- 464浏览 收藏
-
- 科技周边 · 人工智能 | 56分钟前 |
- 豆包AI发音工具,轻松练标准发音
- 143浏览 收藏
-
- 科技周边 · 人工智能 | 59分钟前 |
- 即梦AI视频高清导出技巧分享
- 138浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 5月新能源销量:比亚迪双榜第一
- 237浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- Deepseek与Readwise提升阅读学习效率
- 169浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 509次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 边界AI平台
- 探索AI边界平台,领先的智能AI对话、写作与画图生成工具。高效便捷,满足多样化需求。立即体验!
- 323次使用
-
- 免费AI认证证书
- 科大讯飞AI大学堂推出免费大模型工程师认证,助力您掌握AI技能,提升职场竞争力。体系化学习,实战项目,权威认证,助您成为企业级大模型应用人才。
- 344次使用
-
- 茅茅虫AIGC检测
- 茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
- 472次使用
-
- 赛林匹克平台(Challympics)
- 探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
- 572次使用
-
- 笔格AIPPT
- SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
- 481次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览