当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 中国科学院、华为等推出了自己的VMamba，以回应视觉Mamba模型的Swin时刻

中国科学院、华为等推出了自己的VMamba，以回应视觉Mamba模型的Swin时刻

来源：51CTO.COM 2024-01-23 23:25:00 0浏览收藏

小伙伴们对科技周边编程感兴趣吗？是否正在学习相关知识点？如果是，那么本文《中国科学院、华为等推出了自己的VMamba，以回应视觉Mamba模型的Swin时刻》，就很适合你，本篇文章讲解的知识点主要包括。在之后的文章中也会多多分享相关知识点，希望对大家的知识积累有所帮助！

Transformer在大模型领域的地位无可撼动。然而，随着模型规模的扩展和序列长度的增加，传统的Transformer架构的局限性开始凸显。幸运的是，Mamba的问世正在迅速改变这一现状。它出色的性能立即引起了AI界的轰动。Mamba的出现为大规模模型的训练和序列处理带来了巨大的突破。它的优势在AI界迅速蔓延，为未来的研究和应用带来了巨大的希望。

上周四， Vision Mamba（Vim）的提出已经展现了它成为视觉基础模型的下一代骨干的巨大潜力。仅隔一天，中国科学院、华为、鹏城实验室的研究人员提出了 VMamba：一种具有全局感受野、线性复杂度的视觉 Mamba 模型。这项工作标志着视觉 Mamba 模型 Swin 时刻的来临。

视觉Mamba模型的Swin时刻，中国科学院、华为等推出VMamba

论文标题：VMamba: Visual State Space Model
论文地址: https://arxiv.org/abs/2401.10166
代码地址: https://github.com/MzeroMiko/VMamba

CNN 和视觉 Transformer（ViT）是当前最主流的两类基础视觉模型。尽管 CNN 具有线性复杂度，ViT 具有更为强大的数据拟合能力，然而代价是计算复杂较高。研究者认为 ViT 之所以拟合能力强，是因为其具有全局感受野和动态权重。受 Mamba 模型的启发，研究者设计出一种在线性复杂度下同时具有这两种优秀性质的模型，即 Visual State Space Model（VMamba）。大量的实验证明，VMamba 在各种视觉任务中表现卓越。如下图所示，VMamba-S 在 ImageNet-1K 上达到 83.5% 的正确率，比 Vim-S 高 3.2%，比 Swin-S 高 0.5%。

视觉Mamba模型的Swin时刻，中国科学院、华为等推出VMamba

方法介绍

视觉Mamba模型的Swin时刻，中国科学院、华为等推出VMamba

VMamba 的成功关键在于采用了 S6 模型，这个模型最初是为了解决自然语言处理（NLP）任务而设计的。与 ViT 的注意力机制不同，S6 模型通过将 1D 向量中的每个元素与之前的扫描信息进行交互，有效地将二次复杂度降低为线性。这种交互方式使得 VMamba 在处理大规模数据时更加高效。因此，S6 模型的引入为 VMamba 的成功打下了坚实的基础。

然而，由于视觉信号（如图像）不像文本序列那样具有天然的有序性，因此无法在视觉信号上简单地对 S6 中的数据扫描方法进行直接应用。为此研究者设计了 Cross-Scan 扫描机制。Cross-Scan 模块（CSM）采用四向扫描策略，即从特征图的四个角同时扫描（见上图）。该策略确保特征中的每个元素都以不同方向从所有其他位置整合信息，从而形成全局感受野，又不增加线性计算复杂度。

视觉Mamba模型的Swin时刻，中国科学院、华为等推出VMamba

在 CSM 的基础上，作者设计了 2D-selective-scan（SS2D）模块。如上图所示，SS2D 包含了三个步骤：

scan expand 将一个 2D 特征沿 4 个不同方向（左上、右下、左下、右上）展平为 1D 向量。
S6 block 独立地将上步得到的 4 个 1D 向量送入 S6 操作。
scan merge 将得到的 4 个 1D 向量融合为一个 2D 特征输出。

视觉Mamba模型的Swin时刻，中国科学院、华为等推出VMamba

上图为本文提出的 VMamba 结构图。VMamba 的整体框架与主流的视觉模型类似，其主要区别在于基本模块（VSS block）中采用的算子不同。VSS block 采用了上述介绍的 2D-selective-scan 操作，即 SS2D。SS2D 保证了 VMamba 在线性复杂度的代价下实现全局感受野。

实验结果

ImageNet 分类

视觉Mamba模型的Swin时刻，中国科学院、华为等推出VMamba

通过对比实验结果不难看出，在相似的参数量和 FLOPs 下:

VMamba-T 取得了 82.2% 的性能，超过 RegNetY-4G 达 2.2%、DeiT-S 达 2.4%、Swin-T 达 0.9%。
VMamba-S 取得了 83.5% 的性能，超过 RegNetY-8G 达 1.8%，Swin-S 达 0.5%。
VMamba-B 取得了 83.2% 的性能（有 bug，正确结果将尽快在 Github 页面更新），比 RegNetY 高 0.3%。

这些结果远高于 Vision Mamba (Vim) 模型，充分验证了 VMamba 的潜力。

COCO 目标检测

视觉Mamba模型的Swin时刻，中国科学院、华为等推出VMamba

在 COOCO 数据集上，VMamba 也保持卓越性能：在 fine-tune 12 epochs 的情况下，VMamba-T/S/B 分别达到 46.5%/48.2%/48.5% mAP，超过了 Swin-T/S/B 达 3.8%/3.6%/1.6% mAP，超过 ConvNeXt-T/S/B 达 2.3%/2.8%/1.5% mAP。这些结果验证了 VMamba 在视觉下游实验中完全 work，展示出了能平替主流基础视觉模型的潜力。

ADE20K 语义分割

视觉Mamba模型的Swin时刻，中国科学院、华为等推出VMamba

在 ADE20K 上，VMamba 也表现出卓越性能。VMamba-T 模型在 512 × 512 分辨率下实现 47.3% 的 mIoU，这个分数超越了所有竞争对手，包括 ResNet，DeiT，Swin 和 ConvNeXt。这种优势在 VMamba-S/B 模型下依然能够保持。

分析实验

有效感受野

视觉Mamba模型的Swin时刻，中国科学院、华为等推出VMamba

VMamba 具有全局的有效感受野，其他模型中只有 DeiT 具有这个特性。但是值得注意的是，DeiT 的代价是平方级的复杂度，而 VMamaba 是线性复杂度。

输入尺度缩放

视觉Mamba模型的Swin时刻，中国科学院、华为等推出VMamba

上图（a）显示，VMamba 在不同输入图像尺寸下展现出最稳定的性能（不微调）。有意思的是，随着输入尺寸从 224 × 224 增加到 384 × 384，只有 VMamba 表现出性能明显上升的趋势（VMamba-S 从 83.5% 上升到 84.0%），突显了其对输入图像大小变化的稳健性。
上图（b）显示，VMamba 系列模型随着输入变大，复杂性呈线性增长，这与 CNN 模型是一致的。

最后，让我们期待更多基于 Mamba 的视觉模型被提出，并列于 CNNs 和 ViTs，为基础视觉模型提供第三种选择。

今天带大家了解了的相关知识，希望对你有所帮助；关于科技周边的技术知识我们会一点点深入介绍，欢迎大家关注golang学习网公众号，一起学习编程~

模型数据

版本声明

本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除

深度学习图像转换模型：CycleGAN

深度学习图像转换模型：CycleGAN

上一篇: 深度学习图像转换模型：CycleGAN

主题模型在自然语言处理中的应用

下一篇: 主题模型在自然语言处理中的应用

查看更多

最新文章

科技周边 · 人工智能 | 1小时前 | 版本控制版本回滚多模态AI模型回滚步骤易忽略细节

多模态AI版本回滚与管理方法

286浏览收藏
科技周边 · 人工智能 | 1小时前 | 标准化绘蛙AI 批量修图 AI与人工协同工作室模式

绘蛙AI批量修图技巧与工作室使用教程

495浏览收藏
科技周边 · 人工智能 | 1小时前 |

PerplexityAI能分析地壳运动吗？

325浏览收藏
科技周边 · 人工智能 | 1小时前 |

Android集成MLKit，AI功能实战教程

319浏览收藏
科技周边 · 人工智能 | 1小时前 |

AI剪辑10分钟生成短视频全解析

425浏览收藏
科技周边 · 人工智能 | 1小时前 | 快速上手提示词改图鸭 AI绘画模板个性化创作

改图鸭AI绘画模板使用教程快速上手指南

352浏览收藏
科技周边 · 人工智能 | 1小时前 |

2025上半年自主品牌销量排名小米SU7第五

351浏览收藏
科技周边 · 人工智能 | 1小时前 |

Deepseek+Descript，专业剪辑新体验

413浏览收藏
科技周边 · 人工智能 | 1小时前 |

HuggingFace模型使用与加载教程

142浏览收藏
科技周边 · 人工智能 | 1小时前 | 视觉设计 DecktopusAI 活动报名率邀请页智能内容生成

DecktopusAI如何提升邀请页转化率

390浏览收藏
科技周边 · 人工智能 | 2小时前 | 效果评估宣小二软文投稿推广方式内容为王

宣小二推广方式有哪些？软文发布教程详解

346浏览收藏
科技周边 · 人工智能 | 2小时前 |

7月汽车产销超259万，新能源车出口领先

234浏览收藏

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

542次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

511次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

498次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

484次学习

查看更多

AI推荐

千音漫语

千音漫语，北京熠声科技倾力打造的智能声音创作助手，提供AI配音、音视频翻译、语音识别、声音克隆等强大功能，助力有声书制作、视频创作、教育培训等领域，官网：https://qianyin123.com

151次使用
MiniWork

MiniWork是一款智能高效的AI工具平台，专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具，提供精准智能解决方案，让复杂工作简单高效。

143次使用
NoCode

NoCode (nocode.cn)是领先的无代码开发平台，通过拖放、AI对话等简单操作，助您快速创建各类应用、网站与管理系统。无需编程知识，轻松实现个人生活、商业经营、企业管理多场景需求，大幅降低开发门槛，高效低成本。

157次使用
达医智影

达医智影，阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”，仅一次CT扫描即可高效识别多种癌症、急症及慢病，为疾病早期发现提供智能、精准的AI影像早筛解决方案。

150次使用
智慧芽Eureka

智慧芽Eureka，专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景，通过专家级AI Agent精准执行任务，智能化工作流解放70%生产力，让您专注核心创新。

159次使用

查看更多

相关文章

GPT-4王者加冕！读图做题性能炸天，凭自己就能考上斯坦福

2023-04-25 501浏览
单块V100训练模型提速72倍！尤洋团队新成果获AAAI 2023杰出论文奖

2023-04-24 501浏览
ChatGPT 真的会接管世界吗？

2023-04-13 501浏览
VR的终极形态是「假眼」？Neuralink前联合创始人掏出新产品：科学之眼！

2023-04-30 501浏览
实现实时制造可视性优势有哪些？

2023-04-15 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码