当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 逆转特征让re-id模型从88.54%到0.15%

逆转特征让re-id模型从88.54%到0.15%

来源:51CTO.COM 2023-04-26 16:06:29 0浏览 收藏

本篇文章主要是结合我之前面试的各种经历和实战开发中遇到的问题解决经验整理的,希望这篇《逆转特征让re-id模型从88.54%到0.15%》对你有很大帮助!欢迎收藏,分享给更多的需要的朋友学习~

这篇文章初版2018年5月就写好了,最近2022年12月才中。四年中得到了老板们的很多支持和理解。

(这段经历也希望给在投稿的同学们一点鼓舞,paper写好肯定能中的,不要轻易放弃!)

arXiv早期版本为:Query Attack via Opposite-Direction Feature:Towards Robust Image Retrieval

图片

论文链接:https://link.springer.com/article/10.1007/s11263-022-01737-y

论文备份链接:https://zdzheng.xyz/files/IJCV_Retrieval_Robustness_CameraReady.pdf

代码:https://github.com/layumi/U_turn

作者:Zhedong Zheng, Liang Zheng, Yi Yang and Fei Wu

与早期版本相比,

  • 我们在公式上做了一些调整;
  • 加入了很多新的related works讨论;
  • 加入了多尺度Query攻击 / 黑盒攻击 / 防御三个不同角度的实验;
  • 加入Food256,Market-1501,CUB,Oxford,Paris等数据集上的新方法和 较新的可视化方式。
  • 攻击了reid中的PCB结构,攻击了Cifar10中的WiderResNet。

实际案例

实际使用的话。举个例子,比如我们要攻击google或者百度的图像检索系统,搞大新闻(大雾)。我们可以下载一张狗的图像,通过imagenet模型(也可以是其他模型,最好是接近检索系统的模型)计算特征,通过把特征调头(本文的方法),来计算对抗噪声(adversarial noise)加回到狗上。再把攻击过后的狗使用以图搜图,可以看到百度谷歌的系统就不能返回狗相关的内容了。虽然我们人还能识别出这是狗的图像。

P.S. 我当时也试过攻击谷歌以图搜图,人还能识别出这是狗的图像,但谷歌往往会返回「马赛克」相关图像。我估计谷歌也不全是用深度特征,或者和imagenet模型有较大差异,导致攻击后,往往趋向于「马赛克」,而不是其他实体类别(飞机啊之类的)。当然马赛克也算某种程度的成功!

What

1.本文的初衷其实特别简单,现有reid模型,或者风景检索模型已经达到了95%以上的Recall-1召回率,那么我们是不是可以设计一种方式来攻击检索模型?一方面探探reid模型的老底,一方面攻击是为了更好的防御,研究一下防御异常case。

2.检索模型与传统的分类模型的差异在于检索模型是用提取出来的特征来比较结果(排序),这与传统的分类模型有较大的差异,如下表。

图片

3. 检索问题还有一个特点就是open set也就是说测试的时候类别往往是训练时没见过的。如果大家熟悉cub数据集,在检索设置下,训练的时候训练集合100多种鸟,和测试时测试100多种鸟,这两个100种是没有overlapp种类的。纯靠提取的视觉特征来匹配和排序。所以一些分类攻击方法不适合攻击检索模型,因为攻击时基于类别预测的graident往往是不准的。

4. 检索模型在测试时,有两部分数据一部分是查询图像query,一部分是图像库 gallery(数据量较大,而且一般不能access)。考虑到实际可行性,我们方法将主要瞄准攻击query的图像来导致错误的检索结果。

How

1. 很自然的一个想法就是攻击特征。那么怎么攻击特征?基于我们之前对于cross entropy loss的观察,(可以参考large-margin softmax loss这篇文章)。往往我们使用分类loss的时候,特征f会存在一个放射形的分布。这是由于特征在学习的时候与最后一层分类层权重W计算的是cos similarity。如下图,导致我们学完模型,同一类的样本会分布在该类W附近,这样f*W才能到达最大值。

图片

2. 所以我们提出了一个特别简单的方法,就是让特征调头。如下图,其实有两种常见的分类攻击方法也可以一起可视化出来。如(a)这种就是把分类概率最大的类别给压下去(如Fast Gradient),通过给-Wmax,所以有红色的梯度传播方向沿着反Wmax;如(b)还有一种就是把最不可能的类别的特征给拉上来(如Least-likely),所以红色的梯度沿着Wmin。

3. 这两种分类攻击方法在传统分类问题上当然是很直接有效的。但由于检索问题中测试集都是没见过的类别(没见过的鸟种),所以自然f的分布没有那么紧密贴合Wmax或者Wmin,因此我们的策略很简单,既然有了f,那我们直接把f往-f去移动就好了,如图(c)。

这样在特征匹配阶段,原来排名高的结果,理想情况下,与-f算cos similarity,从接近1变到接近-1,反而会排到最低。

达成了我们攻击检索排序的效果。

4. 一个小extension。在检索问题中,我们还常用multi-scale来做query augmentation,所以我们也研究了一下怎么在这种情况下维持攻击效果。(主要难点在于resize操作可能把一些小却关键的抖动给smooth了。)

其实我们应对的方法也很简单,就如model ensemble一样,我们把多个尺度的adversarial gradient做个ensemble平均就好。

实验

1. 在三个数据集三个指标下,我们固定了抖动幅度也就是横坐标的epsilon,比较在同样抖动幅度下哪一种方法能使检索模型犯更多错。我们的方法是黄色线 都处在最下面,也就是攻击效果更好。

图片

2. 同时我们也提供了在5个数据集上(Food,CUB,Market,Oxford,Paris)的定量实验结果

图片

图片

3. 为了展示模型的机制,我们也尝试攻击了Cifar10上的分类模型。

可以看到我们改变最后一层特征的策略,对于top-5也有很强的压制力。对于top-1,由于没有拉一个候选类别上来,所以会比least-likely略低一些,但也差不多。

图片

4. 黑盒攻击

我们也尝试了使用ResNet50生成的攻击样本去攻击一个黑盒的DenseNet模型(这个模型的参数我们是不可获取的)。发现也能取得比较好的迁移攻击能力。

图片

5. 对抗防御

我们采用online adversarial training的方式来训练一个防御模型。我们发现他在接受新的白盒攻击的时候依然是不行的,但是比完全没有防御的模型在小抖动上会更稳定一些(掉点少一些)。

图片

6. 特征移动的可视化

这也是我觉得最喜欢的一个实验。我们利用Cifar10,把最后分类层的维度改为2,来plot分类层的feature的变化。

如下图,随着抖动幅度epsilon的变大,我们可以看到样本的特征慢慢「调头」了。比如大部分橙色的特征就移动到对面去了。

图片

终于介绍完啦!小伙伴们,这篇关于《逆转特征让re-id模型从88.54%到0.15%》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布科技周边相关知识,快来关注吧!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
微信AI,它来了!微信AI,它来了!
上一篇
微信AI,它来了!
首次将「教导主任」引入模型蒸馏,大规模压缩优于24种SOTA方法
下一篇
首次将「教导主任」引入模型蒸馏,大规模压缩优于24种SOTA方法
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • PPTFake答辩PPT生成器:一键生成高效专业的答辩PPT
    PPTFake答辩PPT生成器
    PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
    13次使用
  • SEO标题Lovart AI:全球首个设计领域AI智能体,实现全链路设计自动化
    Lovart
    SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
    14次使用
  • 美图AI抠图:行业领先的智能图像处理技术,3秒出图,精准无误
    美图AI抠图
    美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
    27次使用
  • SEO标题PetGPT:智能桌面宠物程序,结合AI对话的个性化陪伴工具
    PetGPT
    SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
    26次使用
  • 可图AI图片生成:快手可灵AI2.0引领图像创作新时代
    可图AI图片生成
    探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
    53次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码