当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷

眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷

来源:51CTO.COM 2023-06-23 07:48:05 0浏览 收藏

在IT行业这个发展更新速度很快的行业,只有不停止的学习,才不会被行业所淘汰。如果你是科技周边学习者,那么本文《眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷》就很适合你!本篇内容主要包括##content_title##,希望对大家的知识积累有所帮助,助力实战开发!

「唯一真正的探索之旅,不是去拜访陌生的土地,而是透过别人的眼睛来观察宇宙。」——马塞尔·普鲁斯特

通过别人的眼睛来看世界,这个又科幻又诗意(又恐怖)的想法,已经成真了!

眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷

《黑镜》第一季《你的全部历史》

现在,我们只需利用眼睛的反光,就能三维重建这个人正在观察的物体。

是的,这很黑镜。


眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷


眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷

最近,来自马里兰大学的团队,提出一种全新的方法——通过利用包含眼睛反光的人像,来对摄像机没有拍到的场景进行三维重建。

眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷

论文地址:https://arxiv.org/abs/2306.09348

项目地址:https://world-from-eyes.github.io/

经典科幻中的场景都成真了?

用眼睛反射产生辐射场重建?这个想法看似疯狂,实则有足够的理论依据。

作者介绍说,因为人眼具有高度的反射性,所以从捕捉头部移动的一系列帧中,完全可以做到仅使用眼睛的反射,就能重建和渲染人们正在观察的3D场景。

眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷

鉴于这个概念非常「黑镜」,而且这篇论文一发布没几个小时,《黑镜》新一季就宣布上线了,这种巧合简直让人怀疑《黑镜》的导演是不是也注意到了这篇论文。(狗头)

眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷

黑镜第六季今日上线

这项研究一出,网友们直接炸了。

所以,我们已经快进到这一步了?

眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷

这不就是2000年代《攻壳机动队》中的场景吗?这些虚构全都变成现实了!

眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷

眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷

100%的《银翼杀手》,现在就给我一份拷贝吧。

眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷

眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷

儒勒·凡尔纳的《基普兄弟》成真了!

眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷

当然,也有人对此表示毛骨悚然:这个技术可千万别被用于调查取证之类的事情。

眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷

而在今天,我们已经有了Varjo眼动追踪相机,还有苹果的VisionPro以及其他头显,这些设备都可以捕捉大量镜头素材,结合进这项新技术,无数崭新的科幻场景,恐怕马上都要成真了……

眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷

通过利用光线在人眼上的微小反射,研究团队开发了一种方法,可以使用在固定相机位置拍摄的单目图像序列来重建人所观察到的(非直视)场景。

不过,仅仅在观察到的反射上训练辐射场是不够的,原因有几个:1)角膜定位中的固有噪声,2)虹膜纹理的复杂性,3)每张图像中捕获的低分辨率反射。

为了解决这些挑战,团队在训练过程中引入了角膜姿态优化和虹膜纹理分解,并借助基于人眼虹膜的径向纹理正则化损失。

与传统的需要移动相机的神经场训练方法不同,他们使用的方法将相机放置在固定的视点上,完全依赖于用户的移动。

利用人眼反光,实现场景重建

由于准确估计眼睛的姿态十分困难,再加上虹膜和场景反射之间的纹理相互交织,因此这项任务颇具挑战性。

为了解决这一问题,作者针对眼睛姿态、描述场景的辐射场以及观察者的眼睛虹膜纹理,进行了联合优化。

眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷

具体来说,主要的贡献有三点:

1. 新的三维重建

提出了一种从眼睛图像中重建观察者世界的3D场景的新方法,可以将先前的基础工作与神经渲染的最新进展相结合。

2. 虹膜的径向先验

引入了虹膜纹理分解的径向先验,显著提高了重建的辐射场的质量。

3. 角膜姿态的优化

开发了一种角膜姿态优化的过程,以减轻眼睛姿态估计的噪声,克服了从人眼中提取特征的独特挑战。

结果显示,利用这个全新的方法,我们可以通过移动画面,从眼睛的反射中获得场景的多个视角,最终实现完整的场景重建。

眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷

更厉害的是,团队还尝试利用Miley Cyrus和Lady Gaga的MV,来重建她们眼睛里的景象。

作者表示,他们成功地重建了出现在Miley的眼中的物体,并且从Lady Gaga的眼中似乎看到了一个人的上半身。

然而,由于这些视频的质量不够高,因此还不能断定重建结果的准确性。

眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷

Lady Gaga

眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷

Miley Cyrus

如何做到的?

众所周知,健康成年人的角膜几何形状几乎相同。

因此,只需在图像中计算一个人的角膜的像素大小,就可以准确计算出他们的眼睛位置。

接下来,作者通过从相机拍摄光线,并将它们反射出近似的眼睛几何形状,来训练眼睛反射的辐射场。

为了避免人眼的虹膜在重建中出现,作者同时训练了一个学习虹膜纹理的二维纹理映射,来进行纹理分解。

眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷


眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷


眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷


眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷

实验评估

合成数据评估

首先,作者通过在Blender场景中放置人眼模型,进行了合成数据上的评估。

下图展示了仅利用眼睛反射重建的场景。

由于在现实生活中无法完美估计眼角膜,作者和评估了角膜姿态优化对估计角膜半径噪音的鲁棒性。

为了模拟真实数据中可能遇到的深度估计误差,作者通过使用不同噪音水平对每个图像中观察到的角膜半径进行缩放,来破坏观察到的角膜半径r_img。

眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷

下图展示了在不同噪音水平下的性能变化。

值得注意的是,随着噪音的增加,与无姿态优化的重建相比,作者提出的姿态优化重建在重建的几何形状和颜色方面更为鲁棒。

这证明姿态优化对于现实场景至关重要,因为图像中从投影的角膜到初始椭圆拟合并不完美。

眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷

此外,在有无纹理分解的情况下的定量比较显示,作者的方法在SSIM和LPIPS方面在纹理分解的情况下表现更好。

值得注意的是,作者没有计算PSNR,因为在设置中,反射和场景本身之间的照明差异非常大。

眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷

真实世界评估

为了保证视野的真实,作者选择了索尼RX IV相机进行拍摄,并使用Adobe Lightroom对图像进行后处理,以减少角膜反射中的噪声。同时,作者在人物的两侧加入了光源来照亮目标物体。

过程中,被拍的人需要在相机的视野范围内移动,以便团队在每个场景中拍摄5-15帧图像。

由于场景照明具有较大的动态范围,作者在所有实验中使用16位图像,以避免丢失观察到的反射中的信息。

平均而言,每个图像中角膜只覆盖约0.1%的区域,而目标物体大约会占到20x20像素,并与虹膜纹理交错。

眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷

数据处理

作者首先通过对图像进行角膜中心和半径的估计,来获得角膜的初始位置估计。

然后,使用平均深度和相机的焦距直接近似来计算角膜的三维位置,并计算其表面法线。

为了自动化这个过程,作者使用Grounding Dino定位眼睛的边界框,并使用ELLSeg对虹膜进行椭圆拟合。

尽管角膜通常被遮挡,但我们只需要未遮挡的区域,因此可以使用Segment Anything来获得虹膜的分割掩码。

眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷

真实结果

从下图展示的效果中可以看出,作者的方法能够从真实世界的人像图片中重建3D场景,尽管存在角膜位置和几何估计的不准确性。

眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷

由于角膜边界的模糊性,想要在图像中实现精确的定位十分困难。

此外,对于某些眼睛颜色,如绿色和蓝色,3D重建也会更加困难,因为虹膜纹理较亮。

眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷

此外,在没有明确建模纹理时,重建后的画面中还会出现更多的「漂浮物」。

为了解决这些问题,可以通过增加径向正则化的程度,来改善重建的质量。

眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷

不过,这个方法依然存在两个主要的限制。

首先,目前的真实世界结果是基于「实验室设置」,例如对人脸进行放大拍摄、使用额外的光源照亮场景等。而在更自由的环境中,就需要面对传感器分辨率较低、动态范围较小且存在运动模糊等更大的挑战。

其次,目前对虹膜纹理的假设(例如恒定纹理、径向恒定颜色)可能过于简化,因此该方法在眼睛大幅度旋转时可能会失效。

作者介绍

共同一作Kevin Zhang,目前是马里兰大学的博士生。

眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷

Brandon Y. Feng在马里兰大学获得计算机科学博士学位,研究兴趣集中在计算成像、中层视觉和计算摄影领域。曾开发了用于图像和3D数据处理的机器学习算法,应用范围涵盖混合现实到自然科学等领域。

眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷

Jia-Bin Huang是马里兰大学副教授,此前在UIUC获得了博士学位。研究兴趣集中在计算机视觉、计算机图形学和机器学习的交叉领域。

眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷

好了,本文到此结束,带大家了解了《眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多科技周边知识!

AI 3D
版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
政策强推,毛利50%的室外路径能否重燃智慧健身市场-IOTE物联网展政策强推,毛利50%的室外路径能否重燃智慧健身市场-IOTE物联网展
上一篇
政策强推,毛利50%的室外路径能否重燃智慧健身市场-IOTE物联网展
生成式AI使得云计算收入猛增,甲骨文与其创始人收入快速增长
下一篇
生成式AI使得云计算收入猛增,甲骨文与其创始人收入快速增长
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 笔灵AI生成答辩PPT:高效制作学术与职场PPT的利器
    笔灵AI生成答辩PPT
    探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
    23次使用
  • 知网AIGC检测服务系统:精准识别学术文本中的AI生成内容
    知网AIGC检测服务系统
    知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
    36次使用
  • AIGC检测服务:AIbiye助力确保论文原创性
    AIGC检测-Aibiye
    AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
    37次使用
  • 易笔AI论文平台:快速生成高质量学术论文的利器
    易笔AI论文
    易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
    47次使用
  • 笔启AI论文写作平台:多类型论文生成与多语言支持
    笔启AI论文写作平台
    笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
    40次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码