当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 分割一切深度图！港科技、南洋理工等开源「SAD」：根据几何信息分割图像

分割一切深度图！港科技、南洋理工等开源「SAD」：根据几何信息分割图像

来源：51CTO.COM 2023-05-20 18:43:58 0浏览收藏

golang学习网今天将给大家带来《分割一切深度图！港科技、南洋理工等开源「SAD」：根据几何信息分割图像》，感兴趣的朋友请继续看下去吧！以下内容将会涉及到等等知识点，如果你是正在学习科技周边或者已经是大佬级别了，都非常欢迎也希望大家都能给我建议评论哈~希望能帮助到大家！

本月初，Meta推出的一款可以「分割一切」的模型Segment Anything Model (SAM) 已经引起了广泛的关注。我们今天介绍的是一种名为「Segment Any RGBD（SAD）」的机器学习模型。与以往所有使用SAM的工具的不同之处在于，SAD读入的图片可以是经过渲染之后的深度图，让SAM直接根据几何信息来分割图像。该项目是由Visual Intelligence Lab@HKUST, HUST, MMLab@NTU, Smiles Lab@XJTU和NUS的同学完成的。如果大家觉得这个项目有意思的话，请大家多多star～

演示程序链接：https://huggingface.co/spaces/jcenaa/Semantic_Segment_AnyRGBD

代码链接：https://github.com/Jun-CEN/SegmentAnyRGBD

分割一切深度图！港科技、南洋理工等开源「SAD」：根据几何信息分割图像

简介

人类可以从深度图的可视化中自然地识别物体，所以研究人员首先通过颜色映射函数将深度图（[H，W]）映射到RGB空间（[H，W，3]），然后将渲染的深度图像输入 SAM。

与RGB图像相比，渲染后的深度图像忽略了纹理信息，而侧重于几何信息。

以往基于 SAM 的项目里SAM 的输入图像都是 RGB 图像，该团队是第一个使用 SAM 直接利用渲染后的深度图提取几何信息的。

下图显示了具有不同颜色图函数的深度图具有不同的 SAM 结果。

分割一切深度图！港科技、南洋理工等开源「SAD」：根据几何信息分割图像

模型流程图如下图所示，作者提供了两种选择，包括将 RGB 图像或渲染的深度图像输入到 SAM进行分割，在每种模式下，用户都可以获得Semantic Mask（一种颜色代表一个类别）和带有类别的 SAM Mask。

分割一切深度图！港科技、南洋理工等开源「SAD」：根据几何信息分割图像

以输入为深度图为例子进行说明。首先通过颜色映射函数将深度图（[H，W]）映射到RGB空间（[H，W，3]），然后将渲染后的深度图送入SAM进行分割。

同时使用OVSeg对RGB图进行zero-shot语义分割，只需要输入一系列候选类别的名称即可完成类别识别。然后每一个SAM的mask的类别会根据当前mask里面的点的语义分割结果进行投票，选择点数最多的类别当成当前mask的类别。

最终输出可视化有两种形式，一种是Semantic mask，即一种颜色对应一种类别；另一种是SAM mask with classes，即输出的mask仍然是SAM的mask，并且每一个mask都有类别。利用深度图，可以将二维结果投影到三维空间进行可视化展示。

对比效果

作者将RGB送入SAM进行分割与将渲染后的深度图送入SAM进行分割进行了对比。

RGB图像主要表示纹理信息，而深度图像包含几何信息，因此RGB图像比渲染的深度图像色彩更丰富。在这种情况下，SAM 为 RGB 输入提供的掩码比深度输入多得多，如下图所示。

分割一切深度图！港科技、南洋理工等开源「SAD」：根据几何信息分割图像

渲染的深度图像减轻了 SAM 的过分割。例如，桌子在RGB图像上被分割成四个部分，其中一个在语义结果中被分类为椅子（下图中的黄色圆圈）。相比之下，桌子在深度图像上被视为一个整体对象并被正确分类。人的头部的一部分在RGB图像上被分类为墙壁（下图中的蓝色圆圈），但在深度图像上却被很好地分类。
距离很近的两个物体在深度图上可能被分割为一个物体，比如红圈中的椅子。在这种情况下，RGB 图像中的纹理信息对于找出对象比较关键。

Demo

分割一切深度图！港科技、南洋理工等开源「SAD」：根据几何信息分割图像

The author hopes that the SAD model can bring more inspiration and innovation, and is also looking forward to feedback and suggestions.。让我们一起探索这个神奇的机器学习世界吧！

文中关于AI,模型的知识介绍，希望对你的学习有所帮助！若是受益匪浅，那就动动鼠标收藏这篇《分割一切深度图！港科技、南洋理工等开源「SAD」：根据几何信息分割图像》文章吧，也可关注golang学习网公众号了解相关技术文章。

AI 模型

版本声明

本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除