颠覆三观!谷歌最新研究:用性能差的模型计算「相似度」反而更准?
知识点掌握了,还需要不断练习才能熟练运用。下面golang学习网给大家带来一个科技周边开发实战,手把手教大家学习《颠覆三观!谷歌最新研究:用性能差的模型计算「相似度」反而更准?》,在实现功能的过程中也带大家重新温习相关知识点,温故而知新,回头看看说不定又有不一样的感悟!
计算图像之间的相似度是计算机视觉中的一个开放性问题。
在图像生成火遍全球的今天,如何定义「相似度」,也是评估生成图像真实度的关键问题。
虽然当下有一些相对直接的方法来计算图像相似度,比如测量像素上的差异(如FSIM, SSIM),但这种方法获得的相似性差异和人眼感知到的差异相去深远。
深度学习兴起后,一些研究人员发现一些神经网络分类器,如AlexNet, VGG, SqueezeNet等在ImageNet上训练后得到的中间表征可以用作感知相似性的计算。
也就是说,embedding比像素更贴近人对于多张图像相似的感知。
当然,这只是一个假设。
最近Google发表了一篇论文,专门研究了ImageNet分类器是否能够更好地评估感知相似度。
论文链接:https://openreview.net/pdf?id=qrGKGZZvH0
虽然已经有工作在2018年发布的BAPPS数据集基础上,在第一代ImageNet分类器上研究了感知评分(perceptual scores),为了进一步评估准确率和感知评分的相关性,以及各种超参数的影响,论文中增加了对最新ViT模型的研究结果。
准确率越高,感知相似度越差?
众所周知,通过在ImageNet上的训练学到的特性可以很好地迁移到许多下游任务,提升下游任务的性能,这也使得在ImageNet预训练成了一个标准操作。
此外,在ImageNet上取得更高的准确率通常意味着在一组多样化的下游任务上有更好的性能,例如对破损图片的鲁棒性、对out-of-distribution数据的泛化性能和对较小分类数据集的迁移学习。
但在感知相似度计算上,一切好像反过来了。
在ImageNet上获得高精度的模型反而具有更差的感知分数,而那些成绩「中游」的模型在感知相似度任务上性能最好。
ImageNet 64 × 64验证精度(x 轴) ,64 × 64 BAPPS 数据集上的感知评分(y 轴),每个蓝点代表一个 ImageNet 分类器
可以看到,更好的 ImageNet 分类器在一定程度上实现了更好的感知评分,但超过某一阈值,提高准确性反而会降低感知评分,分类器的准确度适中(20.0-40.0) ,可以获得最佳的感知评分。
文中同时研究了神经网络超参数对感知分数的影响,如宽度、深度、训练步数、权重衰减、标签平滑和dropout
对于每个超参数,存在一个最优精度,提高精度可以改善感知评分,但这个最优值相当低,并且在超参数扫描中很早就可以达到。
除此之外,分类器精度的提高会导致更差的感知评分。
举个例子,文中给出了感知评分相对于两个超参数的变化: ResNets中的训练steps和ViTs中的宽度。
提前停止的ResNets在6, 50和200的不同深度设置下获得了最佳感知评分
ResNet-50和ResNet-200的感知评分在训练的前几个epoch达到最高值,但在峰值后,性能更好的分类器感知评分值下降更为剧烈。
结果显示,ResNets的训练与学习率调整可以随step增加提升模型的准确性。同样,在峰值之后,模型也表现出与这种逐步提高的精度相匹配的感知相似度评分逐步下降。
ViTs由应用于输入图像的一组Transformer块组成,ViT模型的宽度是单个Transformer块的输出神经元数,增加宽度可以有效提高模型的精度。
研究人员通过更换两个ViT变体的宽度,获得两个模型B/8(即Base-ViT模型,patch尺寸为4)和L/4(即Large-ViT模型) ,并评估准确性和感知评分。
结果还是与提前停止的ResNets观察结果相似,精度较低的较窄的ViT比默认宽度表现得更好。
不过ViT-B/8和 ViT-L/4的最佳宽度分别是它们默认宽度的6% 和12% ,论文中还提供了对于其他超参数的更详细实验列表,如宽度、深度、训练步数、权重衰减、标签平滑和跨 ResNet 和 ViTs 的dropout。
所以想提升感知相似度,那策略就简单了,适当降低准确率即可。
通过缩小ImageNet模型来提高感知评分,表格中的值表示通过在带有默认超参数的模型上缩放给定超参数的模型而获得的改进
根据上述结论,文中提出了一个简单的策略来改善架构的感知评分:缩小模型来降低准确性,直至达到最佳的感知得分。
在实验结果中还可以看到,通过在每个超参数上缩小每个模型所获得的感知评分改进。除了 ViT-L/4,提前停止可以在所有架构中产生最高的评分改进度,并且提前停止是最有效的策略,不需要进行费时的网格搜索。
全局感知函数
在先前的工作中,感知相似度函数使用跨图像空间维度的欧氏距离来计算。
这种方式假定了像素之间存在直接对应关系,但这种对应关系可能不适用于弯曲、平移或旋转的图像。
在这篇文章中,研究人员采用了两个依赖于图像全局表示的感知函数,即捕捉两个图像之间的风格相似性的神经风格迁移工作中的风格损失函数和归一化的平均池距离函数。
样式损失函数比较两幅图像之间的通道间cross-correlation矩阵,而平均池函数比较空间平均的全局表示。
全局感知函数一致地改善了两个网络训练的默认超参数和ResNet-200作为训练epoch函数的感知评分
文中还探讨了一些假设来解释精确度和感知评分之间的关系,并得出了一些额外的见解。
例如,没有常用的skip连接的模型准确性也与感知评分成反比,与接近输入的层相比,更接近输出的层平均具有较低的感知评分。
同时还进一步探索了失真灵敏度(distortion sensitivity)、 ImageNet类别粒度和空间频率灵敏度。
总之,这篇论文探讨了提高分类精度是否会产生更好的感知度量的问题,研究了不同超参数下ResNets和ViTs上精度与感知评分之间的关系,发现感知评分与精度呈现倒U型关系,其中精度与感知评分在一定程度上相关,呈现倒U型关系。
最后,文章详细讨论了精度与感知评分之间的关系,包括skip连接、全局相似函数、失真敏感度、分层感知得分、空间频率敏感度和ImageNet类别粒度。
虽然对于ImageNet精确度和感知相似度之间的权衡现象的确切解释仍然是一个谜,但这篇论文向前迈出了第一步。
今天带大家了解了的相关知识,希望对你有所帮助;关于科技周边的技术知识我们会一点点深入介绍,欢迎大家关注golang学习网公众号,一起学习编程~

- 上一篇
- 亚马逊10000人大裁员今启动!谷歌绩效强制打低分跟风「毕业潮」

- 下一篇
- 图像识别:人脸识别
-
- 科技周边 · 人工智能 | 3小时前 | 预防措施
- 豆包AI导出失败?常见错误代码解析及解决方案
- 285浏览 收藏
-
- 科技周边 · 人工智能 | 5小时前 |
- 东风猛士M817亮相上海车展最“华”越野车
- 292浏览 收藏
-
- 科技周边 · 人工智能 | 5小时前 |
- 岚图FREE+上海车展亮相,搭载华为ADS4.0,6月预售
- 501浏览 收藏
-
- 科技周边 · 人工智能 | 7小时前 |
- 用豆包A/表情包变现攻略及方法
- 196浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 毕业宝AIGC检测
- 毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
- 16次使用
-
- AI Make Song
- AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
- 26次使用
-
- SongGenerator
- 探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
- 24次使用
-
- BeArt AI换脸
- 探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
- 26次使用
-
- 协启动
- SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
- 28次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览