当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > "Andrew领衔获奖团队，突破物体遮挡补全困难"

"Andrew领衔获奖团队，突破物体遮挡补全困难"

来源：51CTO.COM 2024-03-21 15:51:14 0浏览收藏

牛津大学 VGG 实验室 Andrew Zisserman 团队突破了计算机视觉领域的遮挡补全难题，开发了一个系统性解决任意物体遮挡补全问题的框架。该团队还创建了一个新的评估数据集，为这一任务提供了更精确的评估标准。该工作受到了领域内专家的广泛认可，包括 MPI 大佬 Michael Black 和 CVPR 官方账号。

遮挡是计算机视觉很基础但依旧未解决的问题之一，因为遮挡意味着视觉信息的缺失，而机器视觉系统却依靠着视觉信息进行感知和理解，并且在现实世界中，物体之间的相互遮挡无处不在。牛津大学 VGG 实验室 Andrew Zisserman 团队最新工作系统性解决了任意物体的遮挡补全问题，并且为这一问题提出了一个新的更加精确的评估数据集。该工作受到了 MPI 大佬 Michael Black、CVPR 官方账号、南加州大学计算机系官方账号等在 X 平台的点赞。以下为论文「Amodal Ground Truth and Completion in the Wild」的主要内容。

「AI透视眼」，三次马尔奖获得者Andrew带队解决任意物体遮挡补全难题

论文链接：https://arxiv.org/pdf/2312.17247.pdf
项目主页：https://www.robots.ox.ac.uk/~vgg/research/amodal/
代码地址：https://github.com/Championchess/Amodal-Completion-in-the-Wild

非模态分割（Amodal Segmentation）旨在补全物体被遮挡的部分，即给出物体可见部分和不可见部分的形状掩码。这个任务可以使得诸多下游任务受益：物体识别、目标检测、实例分割、图像编辑、三维重建、视频物体分割、物体间支撑关系推理、机器人的操纵和导航，因为在这些任务中知道被遮挡物体完整的形状会有所帮助。

「AI透视眼」，三次马尔奖获得者Andrew带队解决任意物体遮挡补全难题

然而，如何去评估一个模型在真实世界做非模态分割的性能却是一个难题：虽然很多图片中都有大量的被遮挡物体，可是如何得到这些物体完整形状的参考标准或是非模态掩码呢？前人的工作有通过人手动标注非模态掩码的，可是这样标注的参考标准难以避免引入人类误差；也有工作通过制造合成数据集，比如在一个完整的物体上贴直接另一个物体，来得到被遮挡物体的完整形状，但这样得到的图片都不是真实图片场景。因此，这个工作提出了通过 3D 模型投影的方法，构造了一个大规模的涵盖多物体种类并且提供非模态掩码的真实图片数据集（MP3D-Amodal）来精确评估非模态分割的性能。各不同数据集的对比如下图：

「AI透视眼」，三次马尔奖获得者Andrew带队解决任意物体遮挡补全难题

具体而言，以 MatterPort3D 数据集为例，对于任意的有真实照片并且有场景三维结构的数据集，我们可以将场景中所有物体的三维形状同时投影到相机上以得到每个物体的模态掩码（可见形状，因为物体相互之间有遮挡），然后将场景中每个物体的三维形状分别投影到相机以得到这个物体的非模态掩码，即完整的形状。通过对比模态掩码和非模态掩码，即可以挑选出被遮挡的物体。

「AI透视眼」，三次马尔奖获得者Andrew带队解决任意物体遮挡补全难题

数据集的统计数据如下：

「AI透视眼」，三次马尔奖获得者Andrew带队解决任意物体遮挡补全难题

「AI透视眼」，三次马尔奖获得者Andrew带队解决任意物体遮挡补全难题

数据集的样例如下：

「AI透视眼」，三次马尔奖获得者Andrew带队解决任意物体遮挡补全难题

此外，为解决任意物体的完整形状重建任务，作者提取出 Stable Diffusion 模型的特征中关于物体完整形状的先验知识，来对任意被遮挡物体做非模态分割，具体的架构如下（SDAmodal）：

「AI透视眼」，三次马尔奖获得者Andrew带队解决任意物体遮挡补全难题

提出使用 Stable Diffusion Feature 的动机在于，Stable Diffusion 具有图片补全的能力，所以可能一定程度上包含了有关物体的全部信息；而且由于 Stable Diffusion 经过大量图片的训练，所以可以期待其特征在任意环境下有对任意物体的处理能力。和前人 two-stage 的框架不同，SDAmodal 不需要已经标注好的遮挡物掩码作为输入；SDAmodal 架构简单，却体现出很强的零样本泛化能力（比较下表 Setting F 和 H，仅在 COCOA 上训练，却能在另一个不同域、不同类别的数据集上有所提升）；即使没有关于遮挡物的标注，SDAmodal 在目前已有的涵盖多种类被遮挡物体的数据集 COCOA 以及新提出的 MP3D-Amodal 数据集上，都取得了SOTA表现（Setting H）。

「AI透视眼」，三次马尔奖获得者Andrew带队解决任意物体遮挡补全难题

除了定量实验，定性的比较也体现出了 SDAmodal 模型的优势：从下图可以观察到（所有模型都只在 COCOA 上训练），对于不同种类的被遮挡物体，无论是来自于 COCOA，还是来自于另一个MP3D-Amodal，SDAmodal 都能大大提升非模态分割的效果，所预测的非模态掩码更加接近真实的。

「AI透视眼」，三次马尔奖获得者Andrew带队解决任意物体遮挡补全难题

更多细节，请阅读论文原文。

理论要掌握，实操不能落！以上关于《"Andrew领衔获奖团队，突破物体遮挡补全困难"》的详细介绍，大家都掌握了吧！如果想要继续提升自己的能力，那么就来关注golang学习网公众号吧！

AI 训练

版本声明

本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除

会在 API 调用时创建 goroutine 吗？

会在 API 调用时创建 goroutine 吗？

上一篇: 会在 API 调用时创建 goroutine 吗？

掌握Go语言适用的软件种类及其特性

下一篇: 掌握Go语言适用的软件种类及其特性

查看更多

最新文章

科技周边 · 人工智能 | 4天前 | AI绘画

AI绘画工具安装与配置教程

339浏览收藏
科技周边 · 人工智能 | 4天前 |

海螺AI语音功能测评与体验分享

260浏览收藏
科技周边 · 人工智能 | 4天前 |

ChatGPT读不了加密PDF？先解密再上传

438浏览收藏
科技周边 · 人工智能 | 4天前 |

千问AI测试规范与覆盖率提升技巧

152浏览收藏
科技周边 · 人工智能 | 4天前 |

MiniMaxMusic2.0专业模式上线：音乐创作新神器

232浏览收藏
科技周边 · 人工智能 | 4天前 |

即梦AI音乐可视化效果评测

280浏览收藏
科技周边 · 人工智能 | 4天前 | 豆包AI 豆包AI助手

豆包AI写诗技巧与教程分享

152浏览收藏
科技周边 · 人工智能 | 4天前 | openclaw

OpenClawAI摘要生成技巧全解析

102浏览收藏
科技周边 · 人工智能 | 4天前 |

百度发布DuMate智能体，李彦宏解读DAA新定义

247浏览收藏
科技周边 · 人工智能 | 4天前 |

智谱清影制作鸟瞰街景镜头教程

306浏览收藏
科技周边 · 人工智能 | 4天前 | openclaw

OpenClaw框架解析与技术亮点揭秘

357浏览收藏
科技周边 · 人工智能 | 4天前 |

即梦AI美妆详情页提示词技巧

334浏览收藏

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

ChatExcel酷表

ChatExcel酷表是由北京大学团队打造的Excel聊天机器人，用自然语言操控表格，简化数据处理，告别繁琐操作，提升工作效率！适用于学生、上班族及政府人员。

6343次使用
Any绘本

探索Any绘本（anypicturebook.com/zh），一款开源免费的AI绘本创作工具，基于Google Gemini与Flux AI模型，让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景，零门槛，高自由度，技术透明，本地可控。

6762次使用
可赞AI

可赞AI，AI驱动的办公可视化智能工具，助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析，还是一键生成专业图表、脑图、知识卡片，可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景，大幅提升办公效率，降低专业门槛，是您提升工作效率的得力助手。

6561次使用
星月写作

星月写作是国内首款聚焦中文网络小说创作的AI辅助工具，解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配，助力新人快速上手，资深作者效率倍增。

8510次使用
MagicLight

MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台，专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型，保障角色、风格、场景高度一致性，让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销，助您轻松实现创意落地与商业化。

7195次使用

查看更多

相关文章

GPT-4王者加冕！读图做题性能炸天，凭自己就能考上斯坦福

2023-04-25 501浏览
单块V100训练模型提速72倍！尤洋团队新成果获AAAI 2023杰出论文奖

2023-04-24 501浏览
ChatGPT 真的会接管世界吗？

2023-04-13 501浏览
VR的终极形态是「假眼」？Neuralink前联合创始人掏出新产品：科学之眼！

2023-04-30 501浏览
实现实时制造可视性优势有哪些？

2023-04-15 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码