当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

来源:机器之心 2024-06-03 22:36:29 0浏览 收藏

偷偷努力,悄无声息地变强,然后惊艳所有人!哈哈,小伙伴们又来学习啦~今天我将给大家介绍《物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野》,这篇文章主要会讲到等等知识点,不知道大家对其都有多少了解,下面我们就一起来看一吧!当然,非常希望大家能多多评论,给出合理的建议,我们一起学习,一起进步!

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文作者为VMamba的原班人马,其中第一作者王兆植是中国科学院大学和鹏城实验室的2022级联合培养博士生,共同一作刘悦是中国科学院大学2021级直博生。他们的主要研究方向是视觉模型设计和自监督学习。

如何突破 Transformer 的 Attention 机制?中国科学院大学与鹏城国家实验室提出基于热传导的视觉表征模型 vHeat。将图片特征块视为热源,并通过预测热传导率、以物理学热传导原理提取图像特征。相比于基于Attention机制的视觉模型, vHeat 同时兼顾了:计算复杂度(1.5次方)、全局感受野、物理可解释性。

当使用vHeat-base+%E6%A8%A1%E5%9E%8B进行高分辨率图像输入时,通过put、GPU显存占用、flops分别是Swin-base+%E6%A8%A1%E5%9E%8B的3倍、1/4、3/4。在图像分类、目标检测、语义/实例分割等基础下游任务上达到了先进的性能表现。

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

  • 论文地址: https://arxiv.org/pdf/2405.16555

  • 代码地址: https://github.com/MzeroMiko/vHeat

  • 论文标题:vHeat: Building Vision Models upon Heat Conduction

Overview

当前最主流的两类基础视觉模型是CNN和视觉Transformer(ViT)。然而,CNN的性能表现受限于局部感受野和固定的卷积核算子。ViT 具有全局依赖关系的表征能力,然而代价是高昂的二次范数计算复杂度。我们认为 CNN 和 ViT 的卷积算子和自注意力算子都是特征内部的像素传递过程,分别是一种信息传递的形式,这也让我们联想到了物理领域的热传导。于是我们根据热传导方程,将视觉语义的空间传播和物理热传导建立联系,提出了一种 1.5 次方计算复杂度的视觉传导算子(Heat Conduction Operator, HCO),进而设计出了一种兼具低复杂度、全局感受野、物理可解释性的视觉表征模型 vHeat。HCO 与 self-attention 的计算形式和复杂度对比如下图所示。实验证明了 vHeat 在各种视觉任务中表现优秀。例如,vHeat-T 在 ImageNet-1K 上达到了 82.2% 的分类准确率,比 Swin-T 高 0.9%,比 ViM-S 高 1.7%。性能之外,vHeat 还拥有高推理速度、低 GPU 显存占用和低 FLOPs 这些优点。在输入图像分辨率较高时,base 规模的 vHeat 模型相比于 Swin 只多吞吐量1/3、1/4 的GPU显存占用和 3/4 的 FLOPs。

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

方法介绍

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野表示点物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野在 t 时刻下的温度, 物理热传导方程为物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野,其中 k>0,表示热扩散率。给定 t=0 时刻下的初始条件物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野,该热传导方程可以采用傅里叶变换求得通解,表示如下:

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

其中物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野分别表示傅里叶变换和逆傅里叶变换,物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野 表示频域空间坐标。

我们利用 HCO 来实现视觉语义中的热传导,先将物理热传导方程中的物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野扩展为多通道特征物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野,将物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野视为输入,物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野视为输出,HCO 模拟了离散化形式的热传导通解,如下公式所示:

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

其中物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野分别表示二维离散余弦变换和逆变换,HCO 的结构如下图 (a) 所示。

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

此外,我们认为不同图像内容应该对应不同的热扩散率,考虑到物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野的输出在频域中,我们根据频率值来决定热扩散率,物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野。由于频域中不同位置表示了不同的频率值,我们提出了频率值编码(Frequency Value Embeddings,  FVEs)来表示频率值信息,与 ViT 中的绝对位置编码的实现和作用类似,并用 FVEs 对热扩散率 k 进行预测,使得 HCO 可以进行非均匀、自适应的传导,如下图所示。

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

vHeat 采用多层级的结构实现,如下图所示,整体框架与主流的视觉模型类似,其中的 HCO layer 如图 2 (b) 所示。

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

实验结果

ImageNet分类

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

通过对比实验结果不难看出,在相似的参数量和 FLOPs 下:

  1. vHeat-T 取得了 82.2% 的性能,超过 DeiT-S 达 2.4%、Vim-S 达 1.7%、Swin-T 达 0.9%。
  2. vHeat-S 取得了 83.6% 的性能,超过 Swin-S 达 0.6%、ConvNeXt-S 达 0.5%。
  3. vHeat-B 取得了 83.9% 的性能,超过 DeiT-B 达 2.1%、Swin-B 达 0.4%。

同时,由于 vHeat 的 O (N^1.5) 低复杂度和可并行计算性,推理吞吐量相比于 ViTs、SSM 模型有明显的优势,例如 vHeat-T 的推理吞吐量为 1514 img/s,比 Swin-T 高 22%,比 Vim-S 高 87%,也比 ConvNeXt-T 高 26%,同时拥有更好的性能。

下游任务

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

在 COCO 数据集上, vHeat 也拥有性能优势:在 fine-tune 12 epochs 的情况下,vHeat-T/S/B 分别达到 45.1/46.8/47.7 mAP,超过了 Swin-T/S/B 达 2.4/2.0/0.8 mAP,超过 ConvNeXt-T/S/B 达 0.9/1.4/0.7 mAP。在 ADE20K 数据集上,vHeat-T/S/B 分别达到 46.9/49.0/49.6 mIoU,相比于 Swin 和 ConvNeXt 依然拥有更好的性能表现。这些结果验证了 vHeat 在视觉下游实验中完全 work,展示出了能平替主流基础视觉模型的潜力。

分析实验

有效感受野

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

vHeat 拥有全局的有效感受野,可视化对比的这些主流模型中只有 DeiT 和 HiViT 也具备这个特性。但是值得注意的是,DeiT 和 HiViT 的代价是平方级的复杂度,而 vHeat 是 1.5 次方级的复杂度。

计算代价

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

上图从左到右分别为 vHeat-B 与其他 base 规模下的 ViT-based 模型的推理吞吐量 / GPU 显存占用 / 计算量 FLOPs 对比。可以明显看出,由于 O (N^1.5) 的计算复杂度,vHeat 相比于对比的模型有更快的推理速度、更低的显存占用以及更少的 FLOPs,并且在图像分辨率越大时,优势会更为明显。在输入图像为 768*768 分辨率时,vHeat-B 的推理吞吐量为 Swin-B 的 3 倍左右,GPU 显存占用比 Swin-B 低 74%,FLOPs 比 Swin-B 低 28%。vHeat 与 ViT-based 模型的计算代价对比,展示出其处理高分辨率图像的优秀潜质。

到这里,我们也就讲完了《物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于产业,vHeat,视觉表征模型的知识点!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
高效、可泛化的高斯重建框架,只需3张视图即可快速推理,45秒便可完成优化高效、可泛化的高斯重建框架,只需3张视图即可快速推理,45秒便可完成优化
上一篇
高效、可泛化的高斯重建框架,只需3张视图即可快速推理,45秒便可完成优化
Nature重磅:微软潘海峰华盛顿大学王晟团队发布首个全切片数字病理学模型GigaPath
下一篇
Nature重磅:微软潘海峰华盛顿大学王晟团队发布首个全切片数字病理学模型GigaPath
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 美图AI抠图:行业领先的智能图像处理技术,3秒出图,精准无误
    美图AI抠图
    美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
    15次使用
  • SEO标题PetGPT:智能桌面宠物程序,结合AI对话的个性化陪伴工具
    PetGPT
    SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
    15次使用
  • 可图AI图片生成:快手可灵AI2.0引领图像创作新时代
    可图AI图片生成
    探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
    43次使用
  • MeowTalk喵说:AI猫咪语言翻译,增进人猫情感交流
    MeowTalk喵说
    MeowTalk喵说是一款由Akvelon公司开发的AI应用,通过分析猫咪的叫声,帮助主人理解猫咪的需求和情感。支持iOS和Android平台,提供个性化翻译、情感互动、趣味对话等功能,增进人猫之间的情感联系。
    43次使用
  • SEO标题Traini:全球首创宠物AI技术,提升宠物健康与行为解读
    Traini
    SEO摘要Traini是一家专注于宠物健康教育的创新科技公司,利用先进的人工智能技术,提供宠物行为解读、个性化训练计划、在线课程、医疗辅助和个性化服务推荐等多功能服务。通过PEBI系统,Traini能够精准识别宠物狗的12种情绪状态,推动宠物与人类的智能互动,提升宠物生活质量。
    38次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码