当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > Meta、CMU联手推出VR史诗级升级！最新HyperReel模型实现高保真6自由度视频渲染

Meta、CMU联手推出VR史诗级升级！最新HyperReel模型实现高保真6自由度视频渲染

来源：51CTO.COM 2023-04-16 17:55:43 0浏览收藏

积累知识，胜过积蓄金银！毕竟在开发的过程中，会遇到各种各样的问题，往往都是一些细节知识点还没有掌握好而导致的，因此基础知识点的积累是很重要的。下面本文《Meta、CMU联手推出VR史诗级升级！最新HyperReel模型实现高保真6自由度视频渲染》，就带大家讲解一下知识点，若是你对本文感兴趣，或者是想搞懂其中某个知识点，就请你继续往下看吧~

最近，由Meta和卡内基梅隆大学提出的6-DoF视频表征模型——HyperReel，可能预示着一个全新的VR「杀手级」应用即将诞生！

所谓「六自由度视频」（6-DoF），简单来说就是一个超高清的4D体验式回放。

其中，用户可以完全「置身于」动态场景里面，并且可以自由地移动。而当他们任意改变自己的头部位置（3 DoF）和方向（3 DoF）时，与之相应的视图也会随之生成。

论文地址：https://arxiv.org/abs/2301.02238

与之前的工作相比，HyperReel最大的优势在于内存和计算效率，而这两点对于便携式VR头显来说都至关重要。

而且只需采用vanilla PyTorch，HyperReel就能在单张英伟达RTX 3090上，以每秒18帧的速度实现百万像素分辨率的渲染。

太长不看版：

1. 提出一种可在高分辨率下实现高保真度、高帧率的渲染的光线条件采样预测网络，以及一种紧凑且内存高效的动态体积表征；

2. 6-DoF视频表征方法HyperReel结合了以上两个核心部分，可以在实时渲染百万像素分辨率的同时，实现速度、质量和内存之间的理想平衡；

3. HyperReel在内存需求、渲染速度等多个方面均优于其他方法。

论文介绍

体积场景表征（volumetric scene representation）能够为静态场景提供逼真的视图合成，并构成了现有6-DoF视频技术的基础。

然而，驱动这些表征的体积渲染程序，需要在质量、渲染速度和内存效率方面，进行仔细的权衡。

现有的方法有一个弊端——不能同时实现实时性能、小内存占用和高质量渲染，而在极具挑战性的真实场景中，这些都是极为重要的。

为了解决这些问题，研究人员提出了HyperReel——一种基于NeRF技术（神经辐射场）的6-DoF视频表征方法。

其中，HyperReel的两个核心部分是：

1. 一个光线条件下的采样预测网络，能够在高分辨率下进行高保真、高帧率的渲染；

2. 一个紧凑且内存高效的动态体积表征。

与其他方法相比，HyperReel的6-DoF视频管线不仅在视觉质量上表现极佳，而且内存需求也很小。

同时，HyperReel无需任何定制的CUDA代码，就能在百万像素分辨率下实现18帧/秒的渲染速度。

具体来说，HypeReel通过结合样本预测网络和基于关键帧的体积表征法，从而实现了高渲染质量、速度和内存效率之间的平衡。

其中的样本预测网络，既能加速体积渲染，又能提高渲染质量，特别是对于具有挑战性的视图依赖性的场景。

而在基于关键帧的体积表征方面，研究人员采用的是TensoRF的扩展。

这种方法可以在内存消耗与单个静态帧TensoRF大致相同的同时，凑地表征了一个完整的视频序列。

实时演示

接下来，我们就实时演示一下，HypeReel在512x512像素分辨率下动态和静态场景的渲染效果。

值得注意的是，研究人员在Technicolor和Shiny场景中使用了更小的模型，因此渲染的帧率大于40 FPS。对于其余的数据集则使用完整模型，不过HypeReel仍然能够提供实时推理。

Technicolor

Shiny

Stanford

Immersive

DoNeRF

实现方法

为了实现HeperReel，首先要考虑的问题，就是要优化静态视图合成的体积表征。

像NeRF这样的体积表征，就是对静态场景在3D空间中的每一个点的密度和外观，进行建模。

更具体地说，通过函数将位置x和方向沿着⼀条射线映射到颜色和密度σ(x)。

此处的可训练参数θ，可以是神经网络权重、N维数组条目，或两者的组合。

然后就可以渲染静态场景的新视图

其中表征从o到的透射率。

在实践中，可以通过沿给定射线获取多个样本点，然后使用数值求积来计算方程式1：

其中权重指定了每个样本点的颜色对输出的贡献。

体积渲染的网格示例

在静态场景的HyperReel中，给定一组图像和相机姿势，而训练目标就是重建与每条光线相关的测量颜色。

大多数场景是由实体物体组成的，这些物体的表面位于3D场景体积内的一个2D流形上。在这种情况下，只有一小部分样本点会影响每条光线的渲染颜色。

因此，为了加速体积渲染，研究人员希望只对非零的点，查询颜色和不透明度。

如下图所示，研究人员使用前馈网络来预测一组样本位置。具体来说，就是使用样本预测网络，将射线映射到样本点，以获取体积等式2中的渲染。

这里，研究人员使用Plucker的参数化来表征光线。

但是这其中有一个问题：给网络太多的灵活性，可能会对视图合成质量产生负面影响。例如，如果(x1, . . . , xn) 是完全任意的点，那么渲染可能看起来不是多视图⼀致的。

为了解决这个问题，研究人员选择用样本预测网络来预测一组几何基元G1, ..., Gn的参数，其中基元的参数可以根据输入射线的不同而变化。为了得到样本点，将射线与每个基元相交。

如图a所示，给定源自相机原点o并沿方向ω传播的输入光线后，研究人员首先使用Plucker坐标，重新对光线进行参数化。

如图b所示，一个网络将此射线作为输入，输出一组几何基元{}（如轴对齐的平面和球体）和位移矢量{}的参数。

如图c所示，为了生成用于体积渲染的样本点{}，研究人员计算了射线和几何基元之间的交点，并将位移矢量添加到结果中。预测几何基元的好处是使采样信号平滑，易于插值。

位移矢量为采样点提供了额外的灵活性，能够更好地捕捉到复杂的视线依赖的外观。

如图d所示，最终，研究人员通过公式2进行体积渲染，产生一个像素颜色，并根据相应的观察结果，对它进行了监督训练。

基于关键帧的动态体积

通过上述办法，就可以有效地对3D场景体积进行采样。

如何表征体积呢？在静态情况下，研究人员使用的是内存有效的张量辐射场(TensoRF)方法；在动态情况下，就将TensoRF扩展到基于关键帧的动态体积表征。

下图解释了从基于关键帧的表征中，提取动态的样本点表征的过程。

如图1所示，首先，研究人员使用从样本预测网络输出的速度{}，将时间处的样本点{}平移到最近的关键帧中。

然后，如图2所示，研究人员查询了时空纹理的外积，产生了每个样本点的外观特征，然后通过公式10将其转换成颜色。

通过这样的过程，研究人员提取了每个样本的的不透明度。

结果对比

静态场景的比较

在此，研究人员将HyperReel与现有的静态视图合成方法（包括NeRF、InstantNGP和三种基于采样网络的方法）进行了比较。

DoNeRF数据集

DoNeRF数据集包含六个合成序列，图像分辨率为800×800像素。

如表1所示，HyperReel的方法在质量上优于所有基线，并在很大程度上提高了其他采样网络方案的性能。

同时，HyperReel是用vanilla PyTorch实现的，可在单张RTX 3090 GPU上以6.5 FPS的速度渲染800×800像素的图像（或者用Tiny模型实现29 FPS的渲染）。

此外，与R2L的88层、256个隐藏单元的深度MLP相比，研究人员提出的6层、256个隐藏单元的网络外加TensoRF体积骨干的推理速度更快

LLFF数据集

LLFF数据集包含8个具有1008×756像素图像的真实世界序列。

如表1所示，HyperReel的方法优于DoNeRF、AdaNeRF、TermiNeRF和InstantNGP，但取得的质量比NeRF略差。

由于错误的相机校准和输入视角的稀疏性，这个数据集对显式体积表征来说是一个巨大的挑战。

动态场景的比较

Technicolor数据集

Technicolor光场数据集包含了由时间同步的4×4摄像机装置拍摄的各种室内环境的视频，其中每个视频流中的每张图片都是2048×1088像素。

研究人员将HyperReel和Neural 3D Video在全图像分辨率下对这个数据集的五个序列（Birthday, Fabien, Painter, Theater, Trains）进行比较，每个序列有50帧长。

如表2所示，HyperReel的质量超过了Neural 3D Video，同时每个序列的训练时间仅为1.5个小时（而不是Neural 3D的1000多个小时），并且渲染速度更快。

Neural 3D Video数据集

Neural 3D Video数据集包含6个室内多视图视频序列，由20台摄像机以2704×2028像素的分辨率拍摄。

如表2所示，HyperReel在这个数据集上的表现超过了所有的基线方法，包括NeRFPlayer和StreamRF等最新工作。

特别是，HyperReel在数量上超过了NeRFPlayer，渲染速度是其40倍左右；在质量上超过了StreamRF，尽管其采用Plenoxels为骨干的方法（使用定制的CUDA内核来加快推理速度）渲染速度更快。

此外，HyperReel平均每帧消耗的内存比StreamRF和NeRFPlayer都要少得多。

谷歌Immersive数据集

谷歌Immersive数据集包含了各种室内和室外环境的光场视频。

如表2所示，HyperReel在质量上比NeRFPlayer的要好1 dB，同时渲染速度也更快。

有些遗憾的是，HyperReel目前还没有达到VR所要求的渲染速度（理想情况下为72FPS，立体声）。

不过，由于该方法是在vanilla PyTorch中实现的，因此可以通过比如自定义的CUDA内核等工作，来进一步优化性能。

作者介绍

论文一作Benjamin Attal，目前在卡内基梅隆机器人研究所攻读博士学位。研究兴趣包括虚拟现实，以及计算成像和显示。

到这里，我们也就讲完了《Meta、CMU联手推出VR史诗级升级！最新HyperReel模型实现高保真6自由度视频渲染》的内容了。个人认为，基础知识的学习和巩固，是为了更好的将其运用到项目中，欢迎关注golang学习网公众号，带你了解更多关于AI的知识点！

AI

版本声明

本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除

2022 年用于挖掘加密货币的最佳笔记本电脑

2022 年用于挖掘加密货币的最佳笔记本电脑

上一篇: 2022 年用于挖掘加密货币的最佳笔记本电脑

自动化的未来：2023年加速云的采用

下一篇: 自动化的未来：2023年加速云的采用

评论列表

不安的溪流

赞 ??，一直没懂这个问题，但其实工作中常常有遇到...不过今天到这，帮助很大，总算是懂了，感谢博主分享技术贴！

2023-04-27 03:17:56
大气的黑裤

这篇博文真是及时雨啊，细节满满，真优秀，码住，关注大佬了！希望大佬能多写科技周边相关的文章。

2023-04-20 06:56:16

查看更多

最新文章

科技周边 · 人工智能 | 5天前 | 人工智能 · GenAI · opentelemetry · 可观测性 · AI工程 · 人工智能链路追踪 GenAI OpenTelemetry AI可观测性 LLM网关 Token统计

AI 调用可观测架构：从散乱日志到 OpenTelemetry GenAI 字段统一

427浏览收藏
科技周边 · 人工智能 | 5天前 | Node.js · 人工智能 · deepseek · AI工具 · Node.js 人工智能命令行工具流式输出 AI摘要 DeepSeek API

用 DeepSeek API 从零写一个流式摘要小工具：Node.js 命令行版

154浏览收藏
科技周边 · 人工智能 | 6天前 | JSON · 人工智能 · 结构化输出 · 接口排查 · JSON Schema AI结构化输出解析失败 LLM接口提示词排查

AI 结构化输出解析失败怎么办：从提示词到 JSON Schema 逐步定位

309浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · webgpu · 浏览器API · 本地推理 · 前端AI · AI推理 WebGPU 降级方案前端性能浏览器端AI 本地推理

WebGPU 做浏览器端 AI 推理：能力边界、检测和降级方案

234浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · 前端流式输出 · AI聊天 · Fetch Stream · 前端 AI聊天流式输出 ReadableStream TextDecoder Fetch Stream

AI 聊天流式输出前端配方：用 Fetch Stream 实现逐字渲染和中断控制

448浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · rag · 向量数据库 · 检索增强生成 · 人工智能 AI应用 RAG embedding 向量检索

RAG 答非所问怎么排查：从切块、向量到召回上下文

427浏览收藏
科技周边 · 人工智能 | 2星期前 | 人工智能 · rag · 向量检索 · 知识库问答 · AI工程化 · 人工智能知识库 RAG 重排向量检索文档切分证据引用

AI 知识库检索召回工作流：从文档切分到重排和证据引用

191浏览收藏
科技周边 · 人工智能 | 2星期前 | JSON · 人工智能 · 结构化输出 · 大模型接口 · 后端接入 · 人工智能 JSON AI接口 Schema 结构化输出

AI 接口 JSON 返回不稳定排查：从提示词到结构化输出

299浏览收藏
科技周边 · 人工智能 | 2星期前 | 人工智能 · mcp · ai agent · 工具接入 · 安全审计 · AI Agent MCP Model Context Protocol 工具清单资源上下文权限审计

MCP 服务接入工作流：从工具清单到权限审计的 AI Agent 落地路线

378浏览收藏
科技周边 · 人工智能 | 2星期前 | 人工智能 · ai agent · 工具调用 · 结构化输出 · 工程排查 · AI Agent Schema 结构化输出超时重试工具调用兜底回答

AI Agent 工具调用失败排查：从 Schema 到超时兜底的完整工作流

195浏览收藏
科技周边 · 人工智能 | 2星期前 | 人工智能 · rag · 知识库检索 · RAG 向量检索 AI知识库混合召回结果重排

AI 知识库检索不到答案排查：从分块到重排的 RAG 修复流程

453浏览收藏
科技周边 · 人工智能 | 2星期前 | 人工智能 · AI工程 · 成本控制 · 人工智能成本控制 AI接口 token预算 Batch API

AI 批量调用成本控制：从请求日志到预算阈值的完整工作流

202浏览收藏

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

ljg-skills

ljg-skills 是李继刚开源的 AI 技能与提示词集合，面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板，适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。

4152次使用
MELO音乐

MELO音乐是一站式AI视频与音乐制作助手，对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐，MELO为你免费谱曲，轻松做同款！

3858次使用
UniScribe

UniScribe 是一款 AI 音视频转文字与内容整理工具，支持上传音频、视频文件或粘贴 YouTube 链接，自动生成转写文本、摘要、思维导图和关键问题，并支持多格式导出，适合会议记录、课程学习、访谈整理和内容创作复盘。

3844次使用
剧云

剧云是专业中文剧本创作平台，安全稳定运行十余年，集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能，数据安全防护，轻松高效创作剧本。

4021次使用
万象有声

万象有声，一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具，可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验，让有声书制作更简单！

3995次使用

查看更多

相关文章

AI写作工具免费版安装教程（含豆包Clawdbot）

2026-05-30 501浏览
WPS AI能自动生成PPT吗？输入主题一键制作演示文稿

2026-05-27 501浏览
Canva手机闪退解决方法及适配指南

2026-05-25 501浏览
Hermes Agent依赖的工具链有哪些必备工具链介绍

2026-05-05 501浏览
千问AI官网地址链接入口_千问AI官方网站登陆入口

2026-05-05 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码