颠覆三观!谷歌最新研究:用性能差的模型计算「相似度」反而更准?
知识点掌握了,还需要不断练习才能熟练运用。下面golang学习网给大家带来一个科技周边开发实战,手把手教大家学习《颠覆三观!谷歌最新研究:用性能差的模型计算「相似度」反而更准?》,在实现功能的过程中也带大家重新温习相关知识点,温故而知新,回头看看说不定又有不一样的感悟!
计算图像之间的相似度是计算机视觉中的一个开放性问题。
在图像生成火遍全球的今天,如何定义「相似度」,也是评估生成图像真实度的关键问题。
虽然当下有一些相对直接的方法来计算图像相似度,比如测量像素上的差异(如FSIM, SSIM),但这种方法获得的相似性差异和人眼感知到的差异相去深远。
深度学习兴起后,一些研究人员发现一些神经网络分类器,如AlexNet, VGG, SqueezeNet等在ImageNet上训练后得到的中间表征可以用作感知相似性的计算。
也就是说,embedding比像素更贴近人对于多张图像相似的感知。
当然,这只是一个假设。
最近Google发表了一篇论文,专门研究了ImageNet分类器是否能够更好地评估感知相似度。
论文链接:https://openreview.net/pdf?id=qrGKGZZvH0
虽然已经有工作在2018年发布的BAPPS数据集基础上,在第一代ImageNet分类器上研究了感知评分(perceptual scores),为了进一步评估准确率和感知评分的相关性,以及各种超参数的影响,论文中增加了对最新ViT模型的研究结果。
准确率越高,感知相似度越差?
众所周知,通过在ImageNet上的训练学到的特性可以很好地迁移到许多下游任务,提升下游任务的性能,这也使得在ImageNet预训练成了一个标准操作。
此外,在ImageNet上取得更高的准确率通常意味着在一组多样化的下游任务上有更好的性能,例如对破损图片的鲁棒性、对out-of-distribution数据的泛化性能和对较小分类数据集的迁移学习。
但在感知相似度计算上,一切好像反过来了。
在ImageNet上获得高精度的模型反而具有更差的感知分数,而那些成绩「中游」的模型在感知相似度任务上性能最好。
ImageNet 64 × 64验证精度(x 轴) ,64 × 64 BAPPS 数据集上的感知评分(y 轴),每个蓝点代表一个 ImageNet 分类器
可以看到,更好的 ImageNet 分类器在一定程度上实现了更好的感知评分,但超过某一阈值,提高准确性反而会降低感知评分,分类器的准确度适中(20.0-40.0) ,可以获得最佳的感知评分。
文中同时研究了神经网络超参数对感知分数的影响,如宽度、深度、训练步数、权重衰减、标签平滑和dropout
对于每个超参数,存在一个最优精度,提高精度可以改善感知评分,但这个最优值相当低,并且在超参数扫描中很早就可以达到。
除此之外,分类器精度的提高会导致更差的感知评分。
举个例子,文中给出了感知评分相对于两个超参数的变化: ResNets中的训练steps和ViTs中的宽度。
提前停止的ResNets在6, 50和200的不同深度设置下获得了最佳感知评分
ResNet-50和ResNet-200的感知评分在训练的前几个epoch达到最高值,但在峰值后,性能更好的分类器感知评分值下降更为剧烈。
结果显示,ResNets的训练与学习率调整可以随step增加提升模型的准确性。同样,在峰值之后,模型也表现出与这种逐步提高的精度相匹配的感知相似度评分逐步下降。
ViTs由应用于输入图像的一组Transformer块组成,ViT模型的宽度是单个Transformer块的输出神经元数,增加宽度可以有效提高模型的精度。
研究人员通过更换两个ViT变体的宽度,获得两个模型B/8(即Base-ViT模型,patch尺寸为4)和L/4(即Large-ViT模型) ,并评估准确性和感知评分。
结果还是与提前停止的ResNets观察结果相似,精度较低的较窄的ViT比默认宽度表现得更好。
不过ViT-B/8和 ViT-L/4的最佳宽度分别是它们默认宽度的6% 和12% ,论文中还提供了对于其他超参数的更详细实验列表,如宽度、深度、训练步数、权重衰减、标签平滑和跨 ResNet 和 ViTs 的dropout。
所以想提升感知相似度,那策略就简单了,适当降低准确率即可。
通过缩小ImageNet模型来提高感知评分,表格中的值表示通过在带有默认超参数的模型上缩放给定超参数的模型而获得的改进
根据上述结论,文中提出了一个简单的策略来改善架构的感知评分:缩小模型来降低准确性,直至达到最佳的感知得分。
在实验结果中还可以看到,通过在每个超参数上缩小每个模型所获得的感知评分改进。除了 ViT-L/4,提前停止可以在所有架构中产生最高的评分改进度,并且提前停止是最有效的策略,不需要进行费时的网格搜索。
全局感知函数
在先前的工作中,感知相似度函数使用跨图像空间维度的欧氏距离来计算。
这种方式假定了像素之间存在直接对应关系,但这种对应关系可能不适用于弯曲、平移或旋转的图像。
在这篇文章中,研究人员采用了两个依赖于图像全局表示的感知函数,即捕捉两个图像之间的风格相似性的神经风格迁移工作中的风格损失函数和归一化的平均池距离函数。
样式损失函数比较两幅图像之间的通道间cross-correlation矩阵,而平均池函数比较空间平均的全局表示。
全局感知函数一致地改善了两个网络训练的默认超参数和ResNet-200作为训练epoch函数的感知评分
文中还探讨了一些假设来解释精确度和感知评分之间的关系,并得出了一些额外的见解。
例如,没有常用的skip连接的模型准确性也与感知评分成反比,与接近输入的层相比,更接近输出的层平均具有较低的感知评分。
同时还进一步探索了失真灵敏度(distortion sensitivity)、 ImageNet类别粒度和空间频率灵敏度。
总之,这篇论文探讨了提高分类精度是否会产生更好的感知度量的问题,研究了不同超参数下ResNets和ViTs上精度与感知评分之间的关系,发现感知评分与精度呈现倒U型关系,其中精度与感知评分在一定程度上相关,呈现倒U型关系。
最后,文章详细讨论了精度与感知评分之间的关系,包括skip连接、全局相似函数、失真敏感度、分层感知得分、空间频率敏感度和ImageNet类别粒度。
虽然对于ImageNet精确度和感知相似度之间的权衡现象的确切解释仍然是一个谜,但这篇论文向前迈出了第一步。
今天带大家了解了的相关知识,希望对你有所帮助;关于科技周边的技术知识我们会一点点深入介绍,欢迎大家关注golang学习网公众号,一起学习编程~

- 上一篇
- 亚马逊10000人大裁员今启动!谷歌绩效强制打低分跟风「毕业潮」

- 下一篇
- 图像识别:人脸识别
-
- 科技周边 · 人工智能 | 3小时前 |
- Deepseek联手Copy.ai,批量生成高质量文案
- 143浏览 收藏
-
- 科技周边 · 人工智能 | 3小时前 |
- 豆包AIWebSocket教程代码详解
- 349浏览 收藏
-
- 科技周边 · 人工智能 | 3小时前 |
- 特斯拉Robotaxi即将上线?最新消息揭秘
- 343浏览 收藏
-
- 科技周边 · 人工智能 | 3小时前 |
- 多模态AI解析工业图纸方法解析
- 206浏览 收藏
-
- 科技周边 · 人工智能 | 3小时前 |
- 文心一言短视频脚本怎么写?实战技巧全解析
- 337浏览 收藏
-
- 科技周边 · 人工智能 | 3小时前 |
- PerplexityAI助力考古研究解析
- 342浏览 收藏
-
- 科技周边 · 人工智能 | 3小时前 |
- 即梦AI自动保存设置教程
- 119浏览 收藏
-
- 科技周边 · 人工智能 | 3小时前 |
- 多模态AI趋势:技术突破与市场前景
- 228浏览 收藏
-
- 科技周边 · 人工智能 | 3小时前 |
- 豆包AI优化NumPy的3个实用技巧
- 157浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 |
- 豆包AI生成with语句示例教程
- 129浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 509次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 边界AI平台
- 探索AI边界平台,领先的智能AI对话、写作与画图生成工具。高效便捷,满足多样化需求。立即体验!
- 367次使用
-
- 免费AI认证证书
- 科大讯飞AI大学堂推出免费大模型工程师认证,助力您掌握AI技能,提升职场竞争力。体系化学习,实战项目,权威认证,助您成为企业级大模型应用人才。
- 381次使用
-
- 茅茅虫AIGC检测
- 茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
- 523次使用
-
- 赛林匹克平台(Challympics)
- 探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
- 626次使用
-
- 笔格AIPPT
- SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
- 533次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览