谷歌团队推出新Transformer,优化全景分割方案
欢迎各位小伙伴来到golang学习网,相聚于此都是缘哈哈哈!今天我给大家带来《谷歌团队推出新Transformer,优化全景分割方案》,这篇文章主要讲到等等知识,如果你对科技周边相关的知识非常感兴趣或者正在自学,都可以关注我,我会持续更新相关文章!当然,有什么建议也欢迎在评论留言提出!一起学习!
最近,谷歌AI团队受Transformer和DETR的启发提出了一种使用Mask Transformer进行全景分割的端到端解决方案。
全称是end-to-end solution for panoptic segmentation with mask transformers,主要用于生成分割MaskTransformer架构的扩展。
该解决方案采用像素路径(由卷积神经网络或视觉Transformer组成)提取像素特征,内存路径(由Transformer解码器模块组成)提取内存特征,以及双路径Transformer用于像素特征和内存之间的交互特征。
然而,利用交叉注意力的双路径Transformer最初是为语言任务设计的,它的输入序列由几百个单词构成。
而对视觉任务尤其是分割问题来说,其输入序列由数万个像素组成,这不仅表明输入规模的幅度要大得多,而且与语言单词相比也代表了较低级别的嵌入。
全景分割是一个计算机视觉问题,它是现在许多应用程序的核心任务。
它分为语义分割和实例分割两部分。
语义分割就比如为图像中的每个像素分配语义标签,例如「人」和「天空」。
而实例分割仅识别和分割图中的可数对象,如「行人」和「汽车」,并进一步将其划分为几个子任务。
每个子任务单独处理,并应用额外的模块来合并每个子任务阶段的结果。
这个过程不仅复杂,而且在处理子任务和整合不同子任务结果时还会引入许多人工设计的先验。
在 CVPR 2022 上发表的「CMT-DeepLab: Clustering Mask Transformers for Panoptic Segmentation」中,文章提出从聚类的角度重新解读并且重新设计交叉注意力cross attention(也就是将相同语义标签的像素分在同一组),从而更好地适应视觉任务。
CMT-DeepLab 建立在先前最先进的方法 MaX-DeepLab 之上,并采用像素聚类方法来执行交叉注意,从而产生更密集和合理的注意图。
kMaX-DeepLab 进一步重新设计了交叉注意力,使其更像一个 k-means 聚类算法,对激活函数进行了简单的更改。
结构总览
研究人员将从聚类的角度进行重新解释,而不是直接将交叉注意力应用于视觉任务而不进行修改。
具体来说,他们注意到Mask Transformer 对象查询可以被认为是集群中心(旨在对具有相同语义标签的像素进行分组)。
交叉注意力的过程类似于 k-means 聚类算法,(1)将像素分配给聚类中心的迭代过程,其中可以将多个像素分配给单个聚类中心,而某些聚类中心可能没有分配的像素,以及(2)通过平均分配给同一聚类中心的像素来更新聚类中心,如果没有分配像素,则不会更新聚类中心)。
在CMT-DeepLab和kMaX-DeepLab中,我们从聚类的角度重新制定了交叉注意力,其中包括迭代聚类分配和聚类更新步骤
鉴于 k-means聚类算法的流行,在CMT-DeepLab中,他们重新设计了交叉注意力,以便空间方面的softmax操作(即沿图像空间分辨率应用的 softmax 操作),实际上将聚类中心分配给相反,像素是沿集群中心应用的。
在 kMaX-DeepLab 中,我们进一步将空间方式的 softmax 简化为集群方式的 argmax(即沿集群中心应用 argmax 操作)。
他们注意到 argmax 操作与 k-means 聚类算法中使用的硬分配(即一个像素仅分配给一个簇)相同。
从聚类的角度重新构建MaskTransformer的交叉注意力,显著提高了分割性能,并简化了复杂的Masktransformer管道,使其更具可解释性。
首先,使用编码器-解码器结构从输入图像中提取像素特征。然后,使用一组聚类中心对像素进行分组,这些像素会根据聚类分配进一步更新。最后,迭代执行聚类分配和更新步骤,而最后一个分配可直接用作分割预测。
为了将典型的MaskTransformer解码器(由交叉注意力、多头自注意力和前馈网络组成)转换为上文提出的k-means交叉注意力,只需将空间方式的softmax替换为集群方式最大参数。
本次提出的 kMaX-DeepLab 的元架构由三个组件组成:像素编码器、增强像素解码器和 kMaX 解码器。
像素编码器是任何网络主干,用于提取图像特征。
增强的像素解码器包括用于增强像素特征的Transformer编码器,以及用于生成更高分辨率特征的上采样层。
一系列 kMaX 解码器将集群中心转换为 (1) Mask嵌入向量,其与像素特征相乘以生成预测Mask,以及 (2) 每个Mask的类预测。
kMaX-DeepLab 的元架构
研究结果
最后,研究小组在两个最具挑战性的全景分割数据集 COCO 和 Cityscapes 上使用全景质量 (PQ) 度量来评估 CMT-DeepLab 和 kMaX-DeepLab,并对比 MaX-DeepLab 和其他最先进的方法。
其中CMT-DeepLab 实现了显著的性能提升,而 kMaX-DeepLab 不仅简化了修改,还进一步提升了,COCO val set 上的 PQ 为 58.0%,PQ 为 68.4%,44.0% Mask平均精度(Mask AP),Cityscapes 验证集上的 83.5% 平均交集比联合(mIoU),没有测试时间增强或使用外部数据集。
从聚类的角度设计,kMaX-DeepLab 不仅具有更高的性能,而且还可以更合理地可视化注意力图以了解其工作机制。
在下面的示例中,kMaX-DeepLab 迭代地执行聚类分配和更新,从而逐渐提高Mask质量。
kMaX-DeepLab 的注意力图可以直接可视化为全景分割,让模型工作机制更合理
结论
本次研究展示了一种更好地设计视觉任务中的MaskTransformer的方法。
通过简单的修改,CMT-DeepLab 和 kMaX-DeepLab 重新构建了交叉注意力,使其更像一种聚类算法。
因此,所提出的模型在COCO 和 Cityscapes数据集上实现了最先进的性能。
研究团队表示,他们希望 DeepLab2 库中 kMaX-DeepLab 的开源版本有助于未来对专用于视觉Transformer架构设计的研究。
今天关于《谷歌团队推出新Transformer,优化全景分割方案》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于模型,谷歌的内容请关注golang学习网公众号!

- 上一篇
- 如何高效、精准地进行图片搜索?看看轻量化视觉预训练模型

- 下一篇
- Apple Watch Ultra:如何调整 Wayfinder 表盘上的罗盘细节
-
- 科技周边 · 人工智能 | 3小时前 |
- Deepseek联手Copy.ai,批量生成高质量文案
- 143浏览 收藏
-
- 科技周边 · 人工智能 | 3小时前 |
- 豆包AIWebSocket教程代码详解
- 349浏览 收藏
-
- 科技周边 · 人工智能 | 3小时前 |
- 特斯拉Robotaxi即将上线?最新消息揭秘
- 343浏览 收藏
-
- 科技周边 · 人工智能 | 3小时前 |
- 多模态AI解析工业图纸方法解析
- 206浏览 收藏
-
- 科技周边 · 人工智能 | 3小时前 |
- 文心一言短视频脚本怎么写?实战技巧全解析
- 337浏览 收藏
-
- 科技周边 · 人工智能 | 3小时前 |
- PerplexityAI助力考古研究解析
- 342浏览 收藏
-
- 科技周边 · 人工智能 | 3小时前 |
- 即梦AI自动保存设置教程
- 119浏览 收藏
-
- 科技周边 · 人工智能 | 3小时前 |
- 多模态AI趋势:技术突破与市场前景
- 228浏览 收藏
-
- 科技周边 · 人工智能 | 3小时前 |
- 豆包AI优化NumPy的3个实用技巧
- 157浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 |
- 豆包AI生成with语句示例教程
- 129浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 509次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 边界AI平台
- 探索AI边界平台,领先的智能AI对话、写作与画图生成工具。高效便捷,满足多样化需求。立即体验!
- 367次使用
-
- 免费AI认证证书
- 科大讯飞AI大学堂推出免费大模型工程师认证,助力您掌握AI技能,提升职场竞争力。体系化学习,实战项目,权威认证,助您成为企业级大模型应用人才。
- 381次使用
-
- 茅茅虫AIGC检测
- 茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
- 523次使用
-
- 赛林匹克平台(Challympics)
- 探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
- 626次使用
-
- 笔格AIPPT
- SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
- 533次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览