当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > AIGC发展太快!Meta发布首个基于文本的4D视频合成器:3D游戏建模师也要下岗了?

AIGC发展太快!Meta发布首个基于文本的4D视频合成器:3D游戏建模师也要下岗了?

来源:51CTO.COM 2023-04-23 21:18:50 0浏览 收藏

小伙伴们对科技周边编程感兴趣吗?是否正在学习相关知识点?如果是,那么本文《AIGC发展太快!Meta发布首个基于文本的4D视频合成器:3D游戏建模师也要下岗了?》,就很适合你,本篇文章讲解的知识点主要包括。在之后的文章中也会多多分享相关知识点,希望对大家的知识积累有所帮助!

AI生成模型在过去这段时间里取了巨大的进展,就图像领域来说,用户可以通过输入自然语言提示来生成图像(如DALL-E 2,Stable Diffusion),也可以在时间维度上扩展生成连续的视频(如Phenaki),或者在空间维度上扩展直接生成3D模型(如Dreamfusion)。

但到目前为止,这些任务仍然处于孤立的研究状态,彼此之间不存在技术交集。

最近Meta AI的研究人员结合了视频和三维生成模型的优势,提出了一个全新的文本到四维(三维+时间)生成系统MAV3D(MakeA-Video3D),将自然语言描述作为输入,并输出一个动态的三维场景表示,可以从任意的视角进行渲染。

图片

论文链接:https://arxiv.org/abs/2301.11280

项目链接:https://make-a-video3d.github.io/

MAV3D也是第一个可以根据给定文本描述来生成三维动态场景的模型。

文中提出的方法使用了一个4D 动态神经辐射场(NeRF) ,通过查询基于文本到视频(T2V)扩散的模型来优化场景表现、密度和运动一致性,由提供的文本生成的动态视频输出可以从任何摄像机的位置和角度观看,并且可以合成到任意的3D环境中。

该方法可用于为视频游戏、视觉效果或增强型和虚拟现实生成3D资产。

图片

与图像生成和视频生成任务不同的是,互联网上有大量的caption数据可供训练,但却连一个现成的4D模型集合都没有。​

图片

柯基玩球

MAV3D的训练不需要任何3D或4D数据,T2V 模型只需要在文本-图像对和未标记的视频上进行训练。

在实验部分,研究人员进行了全面的定量和定性实验以证明该方法的有效性,对之前建立的内部基线有明显提升。

文本到4D动态场景

由于缺乏训练数据,研究人员为了解决这个任务构想了几种思路。

一种方法可能是找到一个预先训练好的二维视频生成器,并从生成的视频中提炼出一个四维重建。不过从视频中重建可变形物体的形状仍然是一个非常具有挑战性的问题,即非刚性运动结构(Non-Rigid Structure from Motion, NRSfM)

如果给定物体的多个同步视点(multiple simultaneous viewpoints),任务就变得简单了。虽然多机位设置在真实数据中很少见,但研究人员认为,现有的视频生成器隐含了生成场景的任意视点模型。

图片

也就是说,可以将视频生成器作为一个「统计学」的多摄像机设置来重建可变形物体的几何和光度。

MAV3D算法通过优化动态神经辐射场(NeRF)与将输入文本解码成视频,对物体周围的随机视点进行采样来实现该目的。

直接使用视频生成器来优化动态NeRF并没有取得令人满意的结果,实现过程中还有几个难题需要攻克:

1. 需要一个有效的、端到端可学习的动态三维场景表征;

2. 需要一个有监督学习的数据源,因为目前并不存在大规模的(文本,4D)对的数据集可供学习;

3. 需要在空间和时间维度上扩展输出的分辨率,因为4D输出需要大量的内存和计算能力;

MAV3D模型

MAV3D模型基于神经辐射场(NeRFs)的最新工作,结合了高效(静态)NeRFs和动态NeRFs中的成果,并将4D场景表示为六个多分辨率特征平面的集合。

为了在没有相应(文本、4D)数据的情况下监督这种表示,研究人员提出了一个用于动态场景渲染的多阶段训练pipeline,并证明了每个组件在实现高质量结果中的重要性。

图片

一个比较关键的观察结果是,使用Text-to-Video(T2V)模型,利用Score Distillation Sampling(SDS)直接优化动态场景会导致视觉伪影和次优收敛。

所以研究人员选择首先利用文本到图像(T2I)模型,将静态的三维场景与文本提示相匹配,随后再用动态的方式增强三维场景模型。

此外,模型中还引入了一个新的temporal-aware SDS损失和运动正则项,通过实验证明了其对现实中和具有挑战性的运动至关重要。

图片

并且通过一个额外的temporal-aware超分辨率微调阶段扩展到更高分辨率的输出。

最后使用T2V模型的超级分辨率模块的SDS来获得高分辨率的梯度信息来进行有监督学习三维场景模型,增加其视觉保真度,能够在推理过程中对更高分辨率的输出进行采样。

实验部分

评价指标

使用CLIP R-Precision来评估生成的视频,可以用于衡量文本和生成场景之间的一致性,可以反应输入提示从渲染的框架中的检索准确性。研究人员使用CLIP的ViT-B/32变体,并在不同的视图和时间步中提取帧。

除此之外还使用了四个定性指标,通过询问人类标注员在两个生成的视频中的偏好,可以得出(i)视频质量;(ii)对文本提示的忠实度;(iii)运动量;以及(iv)运动的真实性

Text-to-4D对比

由于之前没有文字转4D的方法,所以研究人员建立了三个基于T2V生成方法的基线用于对比,二维帧的序列就会用三种不同的方法转化为三维场景表示的序列。

第一个序列是通过one-shot神经场景渲染器(Point-E)得到;第二个是通过对每一帧独立应用pixelNeRF生成的;第三个是应用D-NeRF结合使用COLMAP提取的相机位置。

图片

可以看出,该方法在客观的R-精度指标上超过了基线模型,并且在所有指标上都得到了人类标注员更高的评价。

图片

此外,研究人员还探索了该方法在不同相机视角下的表现。

消融实验

图片

1、 在没有场景超分辨率(SR)微调的情况下训练的模型,其步骤数与MAV3D相同(阶段3)的情况下,人类标注员在质量、文本对齐和运动方面都更倾向于选择用SR训练的模型。

图片

此外,超分辨率微调增强了渲染视频的质量,使高分辨率视频具有更精细的细节和更少的噪音。

图片

2、无预训练:在直接优化动态场景(没有静态场景预训练)的步骤与MAV3D相同的情况下,结果是场景质量低得多或收敛性差:在73%和65%的情况下,用静态预训练的模型在视频质量和现实运动方面更受欢迎。

终于介绍完啦!小伙伴们,这篇关于《AIGC发展太快!Meta发布首个基于文本的4D视频合成器:3D游戏建模师也要下岗了?》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布科技周边相关知识,快来关注吧!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
微软在 Windows 10 和 11 上的 Windows Defender 中引入了易受攻击的驱动程序阻止列表微软在 Windows 10 和 11 上的 Windows Defender 中引入了易受攻击的驱动程序阻止列表
上一篇
微软在 Windows 10 和 11 上的 Windows Defender 中引入了易受攻击的驱动程序阻止列表
人工智能,大幅提升审计水平
下一篇
人工智能,大幅提升审计水平
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 笔灵AI生成答辩PPT:高效制作学术与职场PPT的利器
    笔灵AI生成答辩PPT
    探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
    20次使用
  • 知网AIGC检测服务系统:精准识别学术文本中的AI生成内容
    知网AIGC检测服务系统
    知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
    29次使用
  • AIGC检测服务:AIbiye助力确保论文原创性
    AIGC检测-Aibiye
    AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
    35次使用
  • 易笔AI论文平台:快速生成高质量学术论文的利器
    易笔AI论文
    易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
    43次使用
  • 笔启AI论文写作平台:多类型论文生成与多语言支持
    笔启AI论文写作平台
    笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
    37次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码