微软AR/VR专利提出利用角、线特征进行多摄像头图像对齐
哈喽!今天心血来潮给大家带来了《微软AR/VR专利提出利用角、线特征进行多摄像头图像对齐》,想必大家应该对科技周边都不陌生吧,那么阅读本文就都不会很困难,以下内容主要涉及到,若是你正在学习科技周边,千万别错过这篇文章~希望能帮助到你!
MR系统可以使用多个摄像头,但在呈现图像时需要对齐图像。然而,图像对齐是一个具有挑战性的问题。因此,在名为“利用角点和线特征进行图像对齐的方法”的专利申请中,微软提出了一种解决方案
当然,行业早已存在利用角特征来进行图像对齐的方法。然而,在图像中识别角并根据识别的角对齐图像是一个耗时且计算密集型的操作。
微软提出的是一种更有效的改进技术,可以实现更好的特征匹配。发明主要介绍了使用角特征和线特征来执行视觉对齐的混合方法,而这种解决方案导致对齐过程中所需的约束更少,从而改进计算效率和特征匹配。
图11示出一个示例环境1100,其中用户正在使用头显摄像头1105和外部摄像头1110。如前所述,需要对齐从这两个摄像头生成的图像内容。但环境1100可能是一个弱光环境,或者可能是一个在热梯度或对比度方面具有低对比度的环境。
例如,在深夜物体冷却后,环境的温度梯度可能通常是均匀的。在这种情况下,环境的温度曲线或梯度可能低于特定的等温阈值1115。在这种情况下,用于对齐内容的传统技术可能会失效。微软描述的实施例为这类场景提供了解决方案。
图12示出可用于对齐图像的示例角检测1200过程。图12示出了由图11的头显摄像头1105生成的第一图像1205,以及由外部摄像头1110生成的第二图像1210。
进行角检测操作以识别图像中存在的“角”。举例来说,可以通过实施例来识别第一张图像中的角特征。换句话说,可以在图像中识别一组像素,确定这些像素集合对应于一个角
“角”是指具有非均匀强度的一个或多个像素,其具有相对于所述一个或多个像素水平定位的第一附近像素块和相对于所述一个或多个像素垂直定位的第二附近像素块。换句话说,角定义为一组一个或多个与相对于像素集在X和Y方向相邻角形成对比的像素。
识别第一图像1205中的角特征1215,并且也识别第二图像1210中的角特征。因此,成功识别出角特征1225。需要注意的是,角特征1225与角特征1215是相对应的
为了对齐图像内容,该实施例的任务是识别1230个角的阈值。角的阈值数量必须相互对应。换句话说,必须识别在第一张图像1205中识别的多个角,并且必须与在第二张图像1210中识别的多个角相对应
如果满足这些阈值,则实施例可以执行图像对齐操作以生成叠加图像1235,所述图像1235是其中对齐来自第二图像1210的内容,然后与来自第一图像1205的相应内容覆盖的图像。
进行角点检测和对齐是一项计算密集型操作,如果检测到的角点与图像之间的匹配不够好,整个过程可能会失败。例如,仅使用角点的方法,需要从一张图像中识别出至少5个角点,然后与第二张图像中的相应角点进行匹配。在低对比度条件下,即使识别出5个相应的角点也可能是一项挑战
在识别足够数量的角之后,实施例然后使用运动模型识别3D旋转,以便通过执行各种旋转和转换以使5个角彼此对齐来将图像内容从第一或第二图像适配到另一图像。执行这样的对齐是计算密集型。
因此,我们需要减少只使用角方法时所存在的约束,而图13则描述了这样一种技术。
在图13中展示了角点和线点检测1300的过程,这个过程包括了图12中的角点检测1200操作和线点检测操作的组合。需要注意的是,角点检测操作和线检测操作是同时进行的
通常情况下,识别图像中的相应的“线”比识别角点更简单,因此线检测过程通常比角点检测过程更快。由于这两个过程可以并行运行,并且线检测过程更快,因此添加线检测过程不会对整体对齐过程的速度产生负面影响
通过合并使用线条来对齐图像,可以在对齐过程中使用更少的角,从而导致放松的约束和通常更容易对齐。特别是在低温条件下,要求使用更少的角是非常有益的,因为很难找到和匹配角
“线”被定义为一组一个或多个像素,它们具有相对于一组或多个像素集的水平定位的第一附近像素块的均匀强度,并且具有相对于一组或多个像素集的垂直定位的第二附近像素块的不均匀强度。或者,它们具有相对于一组或多个像素集的水平定位的第一附近像素块的不均匀强度,并且具有相对于一组或多个像素集的垂直定位的第二附近像素块的均匀强度
在图13中,展示了代表图12中图像的第一图像1305和第二图像1310。图13还展示了一种实施方法,可以检测第一图像1305中的角特征1315
在对第一图像1305进行角特征的例检测时,同时也会进行线特征的检测,就像线特征1320和线特征1325所示的那样。一般来说,相较于可以检测到的角的数量,我们能够检测到更多的线
对第二图像1310执行角和线操作。为了说明,所述实施例识别角特征1330。与角检测操作并行,实施例同时检测第二图像1310中的线,如线特征1335和线特征1340。
请注意,角特征1330与角特征1315相对应;线特征1335与线特征1320相对应。线特征1340与线特征1325相对应。实施例可以识别这些对应关系,然后生成或使用适合于将这些特征点彼此对齐的运动模型
根据发明原理,我们定义了第一个阈值为1345。第一个阈值是指必须在两个图像中识别的相应角特征的数量,以便对它们进行对齐。同时,我们还定义了第二个阈值为1350。第二个阈值是指必须在两个图像中识别的相应行特征的数量,以使它们对齐
第一阈值1345和第二阈值1350的满足使实施例能够对齐来自第一图像1305和第二图像1310的内容以生成叠加图像1355。值得注意的是,阈值通常是指必须识别的角和线的总数。
在了解执行线特征检测的便利性和速度之后,你可能会质疑为什么实施例不仅依赖于线检测操作而避免执行角检测操作。原因是因为在图像中检测线条会导致孔径问题。
以下是重写后的内容: 根据图14,我们可以看到孔径问题,即孔径模糊度为1400。在图14中,线段1405是整条线的一部分。孔径模糊度1400指的是一条线的多个不同部分可能(但不正确地)与已识别的线段1405相关
例如,尽管线段1410实际上位于错误的位置或位置,但线段1410可能是与线段1405匹配的像素块。类似地,线段1415或线段1420可能包含可能映射或匹配线段1405中的像素的像素块。这样的场景在对齐过程中引入了模糊性。
因此,依靠线检测过程本身是不够的技术。换句话说,依靠线和角的组合可以使实施例使用宽松的约束,从而提高计算效率。
示例过程流1500在图15中展示。最初,会获取一组图像,如头戴式摄像头图像1505和外部摄像头图像1510。这些图像可能是热图像。图像中的温度梯度或对比度1520可能低于特定的对比度阈值1525。因此,在图像中识别足够数量的角可能相当困难。在这种情况下,可以利用混合方法检测角和线的组合以实现对齐
将头戴式摄像头图像1505和外部摄像头图像1510传送到角度检测器1530和线条检测器1535中,这两个检测器同时运行,彼此之间没有依赖关系
请注意,线检测器1535在检测线条时通常比角检测器1530在检测角度时更快。换句话说,线检测器1535的延迟时间较角检测器1530的延迟时间要短
角点检测器1530分析所述两个图像并识别所述图像中的角点1545。类似地,线检测器1535分析这两个图像并识别图像中的线1550。然后,实施例通过在两个图像内识别相应的角和线来执行对齐1555。
为了执行对齐,需要确定线和角的阈值数量。匹配阈值比识别角的数量或线的阈值更相关。然后,实施例将所识别的角和线拟合到诸如运动模型的3D模型1560中。然后对模型1560进行模型拟合1565操作,以旋转、平移和/或变换一幅图像,从而匹配或对齐另一幅图像中的相应角和线。
换句话说,当执行重投影操作时,实施例使用已识别的角和线来对齐来自一个图像的内容与来自另一个图像的内容
相关专利:Microsoft Patent | Image alignment using corner and line features
名为“Image alignment using corner and line features”的微软专利申请最初在2022年2月提交,并在日前由美国专利商标局公布。
今天关于《微软AR/VR专利提出利用角、线特征进行多摄像头图像对齐》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于AR/VR,关键词:微软,多摄像头图像对齐的内容请关注golang学习网公众号!

- 上一篇
- 特斯拉人形机器人进一步进化:通过视觉自主分类实现瑜伽能力

- 下一篇
- 双电 1899 元起,哈博森黑鹰 1 号避障版无人机发布
-
- 科技周边 · 人工智能 | 10分钟前 |
- 小米汽车订单暴跌,上周仅增8000份
- 103浏览 收藏
-
- 科技周边 · 人工智能 | 10小时前 |
- 腾讯混元3Dv2.5新版3D模型震撼发布
- 307浏览 收藏
-
- 科技周边 · 人工智能 | 11小时前 |
- Llama4震撼发布,Meta开源多模态AI霸主
- 417浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- AI Make Song
- AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
- 17次使用
-
- SongGenerator
- 探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
- 13次使用
-
- BeArt AI换脸
- 探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
- 12次使用
-
- 协启动
- SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
- 16次使用
-
- Brev AI
- 探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
- 17次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览