当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > ICLR 2024 Spotlight | 负标签挖掘助力基于CLIP的分布外检测任务

ICLR 2024 Spotlight | 负标签挖掘助力基于CLIP的分布外检测任务

来源：机器之心 2024-05-06 17:36:34 0浏览收藏

积累知识，胜过积蓄金银！毕竟在科技周边开发的过程中，会遇到各种各样的问题，往往都是一些细节知识点还没有掌握好而导致的，因此基础知识点的积累是很重要的。下面本文《ICLR 2024 Spotlight | 负标签挖掘助力基于CLIP的分布外检测任务》，就带大家讲解一下知识点，若是你对本文感兴趣，或者是想搞懂其中某个知识点，就请你继续往下看吧~

在机器学习模型日益应用于开放世界场景中，如何有效识别和处理分布外（Out-of-Distribution，OOD）数据成为一个重要研究领域。分布外数据的存在可能导致模型过度自信和错误预测，这在安全关键应用（如自动驾驶和医疗诊断）中尤为危险。因此，发展一种有效的OOD检测机制，对于提高模型在实际应用中的安全性和可靠性至关重要。

传统的OOD检测方法主要集中在单一模式，特别是图像数据上，而忽视了其它潜在有用的信息源，例如文本数据。随着视觉-语言模型（VLMs）的兴起，它们在多模式学习场景中展示了强大的性能，特别是在处理需要同时理解图像和相关文本描述的任务中表现出色。现有的基于VLMs的OOD检测方法[3,4,5]仅仅使用了ID标签的语义信息，忽略了VLMs模型强大的零样本能力，以及VLMs可解释非常广阔的语义空间。基于此，我们认为VLMs在OOD检测中有巨大的未开发潜力，尤其是它们可以综合利用图像和文本信息来改善检测效果。

这篇文章围绕三个问题展开：

1.非ID标签的信息是否对零样本OOD检测有帮助？

2.如何挖掘出对零样本OOD检测有利的信息？

3.如何利用挖掘出的信息进行零样本OOD检测？

在这个项目中，我们提出了一种名为NegLabel的创新方法，该方法利用VLMs进行OOD检测。NegLabel方法特别引入了“负标签”机制，这些负标签与已知ID类别标签具有显著的语义差异，通过分析比较图像和ID标签和负标签的亲和性和性质，NegLabel能够有效地区分属于分布外的样本，从而显著增强模型对OOD样本的识别能力。

在多个零样本OOD检测基准测试中，NegLabel取得了优越的性能表现。在大规模数据集如ImageNet-1k上能够达到94.21%的AUROC和25.40%的FPR95。相比于基于VLMs的OOD检测方法，NegLabel不仅不需要额外的训练过程，而且展示出更优越的性能。此外，NegLabel在不同的VLM架构上都表现出了优异的通用性和鲁棒性。

ICLR 2024 Spotlight | 负标签挖掘助力基于CLIP的分布外检测任务

Ø论文链接：https://arxiv.org/pdf/2403.20078.pdf

Ø代码链接：https://github.com/tmlr-group/NegLabel

接下来将简要地向大家分享我们近期发表在 ICLR 2024 上的分布外检测方向的研究结果。

预备知识

ICLR 2024 Spotlight | 负标签挖掘助力基于CLIP的分布外检测任务

方法介绍

NegLabel的核心就是引入了“负标签”机制，这些负标签与已知ID类别标签具有显著的语义差异，通过分析比较图像与ID标签和负标签的亲和性，NegLabel能够有效地区分出属于分布外的样本，从而显著增强模型对OOD样本的识别能力。

ICLR 2024 Spotlight | 负标签挖掘助力基于CLIP的分布外检测任务

图1. NegLabel的总览图

1. 如何选取负标签？

ICLR 2024 Spotlight | 负标签挖掘助力基于CLIP的分布外检测任务

ICLR 2024 Spotlight | 负标签挖掘助力基于CLIP的分布外检测任务

2. 如何利用负标签来进行OOD检测？

ICLR 2024 Spotlight | 负标签挖掘助力基于CLIP的分布外检测任务

ICLR 2024 Spotlight | 负标签挖掘助力基于CLIP的分布外检测任务

3.如何理解负样本可以促进零样本OOD检测？

ICLR 2024 Spotlight | 负标签挖掘助力基于CLIP的分布外检测任务

实验结果

我们的研究工作提供了多维度的实验结果以理解我们提出的方法性能及底层机理。

如下表所示，与诸多性能优良的基准方法和先进方法相比，本文提出的方法可以大规模数据集（如ImageNet）上在其基础上达到更优的分布外检测效果。

ICLR 2024 Spotlight | 负标签挖掘助力基于CLIP的分布外检测任务

此外，如下表所示，本文的方法在ID数据发生域迁移时有着更好的鲁棒性。

ICLR 2024 Spotlight | 负标签挖掘助力基于CLIP的分布外检测任务

在下列两个表格中，我们对NegLabel的各个模块还有VLMs的结构进行了消融实验。左表可以看出，NegMining算法和Grouping策略都可以有效提升OOD检测的性能。右表展示了我们提出的NegLabel算法在不同结构的VLMs有着良好的适应性。

ICLR 2024 Spotlight | 负标签挖掘助力基于CLIP的分布外检测任务

我们还对不同输入图像对于ID标签和负标签的亲和度进行了可视化分析，更多详细的实验和结果请参考原文。

ICLR 2024 Spotlight | 负标签挖掘助力基于CLIP的分布外检测任务

ICLR 2024 Spotlight | 负标签挖掘助力基于CLIP的分布外检测任务

参考文献

[1] Hendrycks, D. and Gimpel, K. A baseline for detecting misclassified and out-of-distribution examples in neural networks. In ICLR, 2017.

[2] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal,Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In ICML, 2021.

[3] Sepideh Esmaeilpour, Bing Liu, Eric Robertson, and Lei Shu. Zero-shot out-of-distribution detection based on the pre-trained model clip. In AAAI, 2022.

[4] Yifei Ming, Ziyang Cai, Jiuxiang Gu, Yiyou Sun, Wei Li, and Yixuan Li. Delving into out-ofdistribution detection with vision-language representations. In NeurIPS, 2022a.

[5] Hualiang Wang, Yi Li, Huifeng Yao, and Xiaomeng Li. Clipn for zero-shot ood detection: Teaching clip to say no. ICCV, 2023.

[6] Christiane Fellbaum. WordNet: An Electronic Lexical Database. Bradford Books, 1998.

以上就是本文的全部内容了，是否有顺利帮助你解决问题？若是能给你带来学习上的帮助，请大家多多支持golang学习网！更多关于科技周边的相关知识，也可关注golang学习网公众号。

理论

版本声明

本文转载于：机器之心如有侵犯，请联系study_golang@163.com删除

LeCun上月球？南开、字节开源StoryDiffusion让多图漫画和长视频更连贯

LeCun上月球？南开、字节开源StoryDiffusion让多图漫画和长视频更连贯

上一篇: LeCun上月球？南开、字节开源StoryDiffusion让多图漫画和长视频更连贯

Golang 新手困惑解决大全：从入门到精通

下一篇: Golang 新手困惑解决大全：从入门到精通

查看更多

最新文章

科技周边 · 人工智能 | 1分钟前 |

DeepSeek处理CSV数据的实用技巧

449浏览收藏
科技周边 · 人工智能 | 8分钟前 |

千问AI如何根据照片写诗？

464浏览收藏
科技周边 · 人工智能 | 16分钟前 | 智谱清言

智谱清言官网入口与使用教程

210浏览收藏
科技周边 · 人工智能 | 22分钟前 | AI智能写作

AI写作官网链接与在线创作入口

143浏览收藏
科技周边 · 人工智能 | 26分钟前 |

DeepSeek图表生成技巧与使用建议

226浏览收藏
科技周边 · 人工智能 | 43分钟前 |

雷鸟X2实时翻译怎么开？

328浏览收藏
科技周边 · 人工智能 | 1小时前 |

EO3.1添加背景音乐详细教程

135浏览收藏
科技周边 · 人工智能 | 1小时前 |

Claude提示词怎么写？实用技巧分享

292浏览收藏
科技周边 · 人工智能 | 1小时前 |

通义千问提示词怎么写教程

260浏览收藏
科技周边 · 人工智能 | 1小时前 |

DeepSeek微信自动回复设置教程

201浏览收藏
科技周边 · 人工智能 | 1小时前 | 百度AI

百度AI助力行业创新升级路径

120浏览收藏
科技周边 · 人工智能 | 1小时前 |

2025年AI剪辑工具推荐与对比分析

129浏览收藏

资料下载

编程学习资料下载

精选编程（Golang、Python、Java、C++、JavaScript等）教程、电子书与示例源码，一键打包本地下载学习。

立即下载

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

ChatExcel酷表

ChatExcel酷表是由北京大学团队打造的Excel聊天机器人，用自然语言操控表格，简化数据处理，告别繁琐操作，提升工作效率！适用于学生、上班族及政府人员。

4119次使用
Any绘本

探索Any绘本（anypicturebook.com/zh），一款开源免费的AI绘本创作工具，基于Google Gemini与Flux AI模型，让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景，零门槛，高自由度，技术透明，本地可控。

4465次使用
可赞AI

可赞AI，AI驱动的办公可视化智能工具，助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析，还是一键生成专业图表、脑图、知识卡片，可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景，大幅提升办公效率，降低专业门槛，是您提升工作效率的得力助手。

4354次使用
星月写作

星月写作是国内首款聚焦中文网络小说创作的AI辅助工具，解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配，助力新人快速上手，资深作者效率倍增。

5840次使用
MagicLight

MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台，专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型，保障角色、风格、场景高度一致性，让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销，助您轻松实现创意落地与商业化。

4710次使用

查看更多

相关文章

GPT-4王者加冕！读图做题性能炸天，凭自己就能考上斯坦福

2023-04-25 501浏览
单块V100训练模型提速72倍！尤洋团队新成果获AAAI 2023杰出论文奖

2023-04-24 501浏览
ChatGPT 真的会接管世界吗？

2023-04-13 501浏览
VR的终极形态是「假眼」？Neuralink前联合创始人掏出新产品：科学之眼！

2023-04-30 501浏览
实现实时制造可视性优势有哪些？

2023-04-15 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码