当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > ImageNet零样本准确率首次超过80%，地表最强开源CLIP模型更新

ImageNet零样本准确率首次超过80%，地表最强开源CLIP模型更新

来源：51CTO.COM 2023-04-29 08:14:52 0浏览收藏

今天golang学习网给大家带来了《ImageNet零样本准确率首次超过80%，地表最强开源CLIP模型更新》，其中涉及到的知识点包括等等，无论你是小白还是老手，都适合看一看哦~有好的建议也欢迎大家在评论留言，若是看完有所收获，也希望大家能多多点赞支持呀！一起加油学习~

虽然ImageNet早已完成历史使命，但其在计算机视觉领域仍然是一个关键的数据集。

2016年，在ImageNet上训练后的分类模型，sota准确率仍然还不到80%；时至今日，仅靠大规模预训练模型的zero-shot泛化就能达到80.1%的准确率。

ImageNet零样本准确率首次超过80%，地表最强开源CLIP模型更新

最近LAION使用开源代码OpenCLIP框架训练了一个全新的 ViT-G/14 CLIP 模型，在 ImageNet数据集上，原版OpenAI CLIP的准确率只有75.4%，而OpenCLIP实现了80.1% 的zero-shot准确率，在 MS COCO 上实现了74.9% 的zero-shot图像检索（Recall@5），这也是目前性能最强的开源 CLIP 模型。

ImageNet零样本准确率首次超过80%，地表最强开源CLIP模型更新

LAION全称为Large-scale Artificial Intelligence Open Network，是一家非营利组织，其成员来自世界各地，旨在向公众提供大规模机器学习模型、数据集和相关代码。他们声称自己是真正的Open AI，100%非盈利且100%免费。

感兴趣的小伙伴可以把手头的CLIP模型更新版本了！

ImageNet零样本准确率首次超过80%，地表最强开源CLIP模型更新

模型地址：https://huggingface.co/laion/CLIP-ViT-bigG-14-laion2B-39B-b160k

OpenCLIP模型在各个数据集上具体的性能如下表所示。

ImageNet零样本准确率首次超过80%，地表最强开源CLIP模型更新

Zero-shot能力

一般来说，计算机视觉（CV）模型在各个任务上的sota性能都是基于特定领域的训练数据，无法泛化到其他领域或任务中，导致对视觉世界的通用属性理解有限。

泛化问题对于那些缺少大量训练数据的领域尤其重要。

理想情况下，CV模型应该学会图像的语义内容，而非过度关注训练集中的特定标签。比如对于狗的图像，模型应该能够理解图像中有一只狗，更进一步来理解背景中有树、时间是白天、狗在草地上等等。

但当下采用「分类训练」得到的结果与预期正好相反，模型学习将狗的内部表征推入相同的「狗向量空间」，将猫推入相同的「猫向量空间」，所有的问题的答案都是二元，即图像是否能够与一个类别标签对齐。

ImageNet零样本准确率首次超过80%，地表最强开源CLIP模型更新

对新任务重新训练一个分类模型也是一种方案，但是训练本身需要大量的时间和资金投入来收集分类数据集以及训练模型。

幸运的是，OpenAI 的CLIP模型是一个非常灵活的分类模型，通常不需要重新训练即可用于新的分类任务中。

CLIP为何能Zero-Shot

对比语言-图像预训练（CLIP, Contrastive Language-Image Pretraining）是 OpenAI 于2021年发布的一个主要基于Transformer的模型。

CLIP 由两个模型组成，一个Transformer编码器用于将文本转换为embedding，以及一个视觉Transformer（ViT）用于对图像进行编码。

ImageNet零样本准确率首次超过80%，地表最强开源CLIP模型更新

CLIP内的文本和图像模型在预训练期间都进行了优化，以在向量空间中对齐相似的文本和图像。在训练过程中，将数据中的图像-文本对在向量空间中将输出向量推得更近，同时分离不属于一对的图像、文本向量。

ImageNet零样本准确率首次超过80%，地表最强开源CLIP模型更新

CLIP与一般的分类模型之间有几个区别：

首先，OpenAI 使用从互联网上爬取下来的包含4亿文本-图像对的超大规模数据集进行训练，其好处在于：

1. CLIP的训练只需要「图像-文本对」而不需要特定的类标签，而这种类型的数据在当今以社交媒体为中心的网络世界中非常丰富。

2. 大型数据集意味着 CLIP 可以对图像中的通用文本概念进行理解的能力。

3. 文本描述（text descriptor）中往往包含图像中的各种特征，而不只是一个类别特征，也就是说可以建立一个更全面的图像和文本表征。

上述优势也是CLIP其建立Zero-shot能力的关键因素，论文的作者还对比了在ImageNet上专门训练的 ResNet-101模型和 CLIP模型，将其应用于从ImageNet 派生的其他数据集，下图为性能对比。

ImageNet零样本准确率首次超过80%，地表最强开源CLIP模型更新

可以看到，尽管 ResNet-101是在ImageNet上进行训练的，但它在相似数据集上的性能要比 CLIP 在相同任务上的性能差得多。

在将 ResNet 模型应用于其他领域时，一个常用的方法是「linear probe」（线性探测），即将ResNet模型最后几层所学到的特性输入到一个线性分类器中，然后针对特定的数据集进行微调。

在CLIP论文中，线性探测ResNet-50与zero-shot的CLIP 进行了对比，结论是在相同的场景中，zero-shot CLIP 在多个任务中的性能都优于在ResNet-50中的线性探测。

ImageNet零样本准确率首次超过80%，地表最强开源CLIP模型更新

不过值得注意的是，当给定更多的训练样本时，Zero-shot并没有优于线性探测。

用CLIP做Zero-shot分类

从上面的描述中可以知道，图像和文本编码器可以创建一个512维的向量，将输入的图像和文本输入映射到相同的向量空间。

用CLIP做Zero-shot分类也就是把类别信息放入到文本句子中。

举个例子，输入一张图像，想要判断其类别为汽车、鸟还是猫，就可以创建三个文本串来表示类别：

T1代表车：a photo of a car

T2代表鸟：a photo of a bird

T3代表猫：a photo of a cat

将类别描述输入到文本编码器中，就可以得到可以代表类别的向量。

假设输入的是一张猫的照片，用 ViT 模型对其进行编码获取图像向量后，将其与类别向量计算余弦距离作为相似度，如果与T3的相似度最高，就代表图像的类别属于猫。

ImageNet零样本准确率首次超过80%，地表最强开源CLIP模型更新

可以看到，类别标签并不是一个简单的词，而是基于模板「a photo of a {label}」的格式重新改写为一个句子，从而可以扩展到不受训练限制的类别预测。

实验中，使用该prompt模板在ImageNet的分类准确性上提高了1.3个百分点，但prompt模板并不总是能提高性能，在实际使用中需要根据不同的数据集进行测试。

Python实现

想要快速使用CLIP做zero-shot分类也十分容易，作者选取了Hugging Face中的frgfm/imagenette数据集作为演示，该数据集包含10个标签，且全部保存为整数值。

ImageNet零样本准确率首次超过80%，地表最强开源CLIP模型更新

使用 CLIP进行分类，需要将整数值标签转换为对应的文本内容。

ImageNet零样本准确率首次超过80%，地表最强开源CLIP模型更新

在直接将标签和照片进行相似度计算前，需要初始化 CLIP模型，可以使用通过 Hugging Face transformers找到的 CLIP 实现。

ImageNet零样本准确率首次超过80%，地表最强开源CLIP模型更新

文本transformer无法直接读取文本，而是需要一组称为token ID（或input _ IDs）的整数值，其中每个唯一的整数表示一个word或sub-word（即token）。

ImageNet零样本准确率首次超过80%，地表最强开源CLIP模型更新

将转换后的tensor输入到文本transformer中可以获取标签的文本embedding

ImageNet零样本准确率首次超过80%，地表最强开源CLIP模型更新

注意，目前CLIP输出的向量还没有经过归一化（normalize），点乘后获取的相似性结果是不准确的。

ImageNet零样本准确率首次超过80%，地表最强开源CLIP模型更新

下面就可以选择一个数据集中的图像作测试，经过相同的处理过程后获取到图像向量。

ImageNet零样本准确率首次超过80%，地表最强开源CLIP模型更新

将图像转换为尺寸为（1, 3, 224, 224）向量后，输入到模型中即可获得embedding

ImageNet零样本准确率首次超过80%，地表最强开源CLIP模型更新

下一步就是计算图像embedding和数据集中的十个标签文本embedding之间的点积相似度，得分最高的即是预测的类别。

ImageNet零样本准确率首次超过80%，地表最强开源CLIP模型更新

模型给出的结果为cassette player（盒式磁带播放器），在整个数据集再重复运行一遍后，可以得到准确率为98.7%

ImageNet零样本准确率首次超过80%，地表最强开源CLIP模型更新

除了Zero-shot分类，多模态搜索、目标检测、生成式模型如OpenAI 的 Dall-E 和 Stable disusion，CLIP打开了计算机视觉的新大门。

本篇关于《ImageNet零样本准确率首次超过80%，地表最强开源CLIP模型更新》的介绍就到此结束啦，但是学无止境，想要了解学习更多关于科技周边的相关知识，请关注golang学习网公众号！

模型

版本声明

本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除

MySQL怎么实现分库分表备份

MySQL怎么实现分库分表备份

上一篇: MySQL怎么实现分库分表备份

php mysql中 __file__属性指的是什么

下一篇: php mysql中 __file__属性指的是什么

查看更多

最新文章

科技周边 · 人工智能 | 18小时前 | 人工智能 · mcp · ai agent · 工具接入 · 安全审计 · AI Agent MCP Model Context Protocol 工具清单资源上下文权限审计

MCP 服务接入工作流：从工具清单到权限审计的 AI Agent 落地路线

378浏览收藏
科技周边 · 人工智能 | 19小时前 | 人工智能 · ai agent · 工具调用 · 结构化输出 · 工程排查 · AI Agent Schema 结构化输出超时重试工具调用兜底回答

AI Agent 工具调用失败排查：从 Schema 到超时兜底的完整工作流

195浏览收藏
科技周边 · 人工智能 | 22小时前 | 人工智能 · rag · 知识库检索 · RAG 向量检索 AI知识库混合召回结果重排

AI 知识库检索不到答案排查：从分块到重排的 RAG 修复流程

453浏览收藏
科技周边 · 人工智能 | 1天前 | 人工智能 · AI工程 · 成本控制 · 人工智能成本控制 AI接口 token预算 Batch API

AI 批量调用成本控制：从请求日志到预算阈值的完整工作流

202浏览收藏
科技周边 · 人工智能 | 1天前 | 人工智能 · rag · 知识库 · AI工程实践 · 人工智能 RAG 知识库问答向量检索引用检查

AI 知识库回答跑偏怎么办：RAG 检索、重排和引用检查完整流程

419浏览收藏
科技周边 · 人工智能 | 2天前 | 人工智能 · ai agent · 工程实践 · AI Agent 上下文管理人工确认多智能体交接摘要

AI Agent 交接跑偏怎么办：从意图检查到交接摘要一步步排查

170浏览收藏
科技周边 · 人工智能 | 3天前 | 人工智能 · 质量检查 · AI应用 · 提示词工程 · 回归测试 · 大模型应用回归测试人工复核 AI提示词评分规则上线检查

AI 提示词回归测试实战：小样本集、评分规则和上线前对比

475浏览收藏
科技周边 · 人工智能 | 4天前 | 人工智能 · tracing · ai agent · 可观测性 · 工具调用 · 可观测性 AI Agent Tracing 工具调用 OpenAI Agents SDK

AI Agent Tracing 实战：工具调用、护栏和人工确认怎么追踪

292浏览收藏
科技周边 · 人工智能 | 4天前 | 人工智能 · ai agent · 工具调用 · 权限治理 · 人工智能审计日志 AI Agent 权限分级工具调用人工确认

AI Agent 工具权限分级实战：读、写、发布三类操作怎么管

379浏览收藏
科技周边 · 人工智能 | 5天前 | 人工智能 · AI应用 · 结构化输出 · 内容质检 · 提示词工程 · AI 提示词结构化输出 JSON Schema 质检流水线人工兜底

AI 输出质检流水线实战：规则检查、结构化结果和人工兜底

394浏览收藏
科技周边 · 人工智能 | 5天前 | 人工智能 · rag · 知识库 · 工程实践 · 向量检索 · 元数据 RAG embedding 向量检索 AI知识库文档分块

AI 知识库分块实战：按标题层级切文档，减少回答跑偏

101浏览收藏
科技周边 · 人工智能 | 5天前 | 人工智能 · AI应用 · 工程实践 · 工具调用 · 人工智能智能体参数校验 AI工具调用 JSON Schema

AI 工具调用落地实战：JSON Schema、参数校验和人工兜底

233浏览收藏

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

ljg-skills

ljg-skills 是李继刚开源的 AI 技能与提示词集合，面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板，适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。

551次使用
MELO音乐

MELO音乐是一站式AI视频与音乐制作助手，对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐，MELO为你免费谱曲，轻松做同款！

570次使用
UniScribe

UniScribe 是一款 AI 音视频转文字与内容整理工具，支持上传音频、视频文件或粘贴 YouTube 链接，自动生成转写文本、摘要、思维导图和关键问题，并支持多格式导出，适合会议记录、课程学习、访谈整理和内容创作复盘。

528次使用
剧云

剧云是专业中文剧本创作平台，安全稳定运行十余年，集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能，数据安全防护，轻松高效创作剧本。

699次使用
万象有声

万象有声，一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具，可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验，让有声书制作更简单！

684次使用

查看更多

相关文章

GPT-4王者加冕！读图做题性能炸天，凭自己就能考上斯坦福

2023-04-25 501浏览
单块V100训练模型提速72倍！尤洋团队新成果获AAAI 2023杰出论文奖

2023-04-24 501浏览
ChatGPT 真的会接管世界吗？

2023-04-13 501浏览
VR的终极形态是「假眼」？Neuralink前联合创始人掏出新产品：科学之眼！

2023-04-30 501浏览
实现实时制造可视性优势有哪些？

2023-04-15 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码