打破NAS瓶颈,新方法AIO-P跨任务预测架构性能
最近发现不少小伙伴都对科技周边很感兴趣,所以今天继续给大家介绍科技周边相关的知识,本文《打破NAS瓶颈,新方法AIO-P跨任务预测架构性能》主要内容涉及到等等知识点,希望能帮到你!当然如果阅读本文时存在不同想法,可以在评论中表达,但是请勿使用过激的措辞~
神经网络的性能评估 (精度、召回率、PSNR 等) 需要大量的资源和时间,是神经网络结构搜索(NAS)的主要瓶颈。早期的 NAS 方法需要大量的资源来从零训练每一个搜索到的新结构。近几年来,网络性能预测器作为一种高效的性能评估方法正在引起更多关注。
然而,当前的预测器在使用范围上受限,因为它们只能建模来自特定搜索空间的网络结构,并且只能预测新结构在特定任务上的性能。例如,训练样本只包含分类网络以及它们的精度,这样训练出来的预测器只能用于评估新网络结构在图像分类任务上的性能。
为了打破这一边界,使预测器能够预测某一网络结构在多种任务上的性能,具备跨任务跨数据泛化能力,华为海思加拿大研究院和阿尔伯塔大学联合推出了一个基于预训练和知识注入的神经网络性能预测框架。该框架可快速评估不同结构和种类的网络在分类、检测、分割等多种不同类型 CV 任务上的性能,以用于神经网络结构搜索。研究论文已被 AAAI 2023 接收。
- 论文链接:https://arxiv.org/abs/2211.17228
- 代码链接:https://github.com/Ascend-Research/AIO-P
AIO-P(All-in-One Predictors)方法旨在将神经预测器的范围扩展到分类之外的计算机视觉任务。AIO-P 利用 K-Adapter 技术将任务相关的知识注入预测器模型,同时设计了一个基于 FLOPs(浮点操作数)的标签缩放机制来适应不同的性能指标和分布。AIO-P 使用了一种独特的伪标记方案来训练 K-Adapters,仅需几分钟即可生成新的训练样本。实验结果表明,AIO-P 展示出了强大的性能预测能力,在几个计算机视觉任务上都取得了出色的 MAE 和 SRCC 结果。此外,AIO-P 可以直接迁移并预测从未见过的网络结构的性能,可以与 NAS 配合,在保证性能不降低的前提下优化现有网络的计算量。
方法介绍
AIO-P 是一种可泛化于多任务的通用网络性能预测器。AIO-P 通过预测器预训练和特定领域知识注入实现了跨任务和跨搜索空间的性能预测能力。AIO-P 利用 K-Adapter 技术将任务相关的知识注入预测器,同时依赖于通用的计算图(CG)格式表示一个网络结构,最终使其能够支持来自不同搜索空间和任务的网络,如下图 1 所示。
图 1. AIO-P 是如何表示用于不同任务的网路结构的
此外,伪标记机制的运用使 AIO-P 能够快速生成新的训练样本用以训练 K-Adapters。为了弥合不同任务上性能度量范围之间的差距,AIO-P 提出了一种基于 FLOPs 的标签缩放方法,实现了跨任务性能建模。广泛的实验结果表明,AIO-P 能够在各种不同的 CV 任务上进行准确的性能预测,如姿态估计和分割,无需训练样本或仅需少量微调。此外,AIO-P 可以正确地对从未见过的网络结构进行性能排序,与搜索算法结合后用于优化华为面部识别网络,保持其性能不变并将 FLOPs 降低超过 13.5%。该论文已被 AAAI-23 接收并且代码已经在 GitHub 上开源。
计算机视觉网络通常由执行特征提取的 “主干” 和使用提取到的特征进行预测的 “头部” 组成。“主干” 的结构通常是基于某一种已知的网络结构设计的 (ResNet, Inception, MobileNet, ViT, UNet),而 “头部” 是针对给定任务,如分类、姿态估计、分割等而设计的。传统的 NAS 方案会根据 “主干” 的结构手动定制搜索空间,比如已知 “主干” 是 MobileNetV3,那么搜索空间可能包含 MBConv Block 数目,每个 MBConv 的参数 (kernel size, expansion),通道数等。然而这种定制的搜索空间不具备通用性,假如有另一个 “主干” 是基于 ResNet 设计的,则无法通过现有的 NAS 框架优化它,而是需要重新设计搜索空间。
为了解决这一问题,AIO-P 选择了从计算图层面来表示不同的网络结构,实现了对任何网络结构的统一表示。具体如图 2 所示,计算图格式允许 AIO-P 将头部和主干编码在一起来表示整网结构。这也使得 AIO-P 可以预测来自不同搜索空间(如 MobileNets 和 ResNets)的网络在各种任务上的性能。
图 2. MobileNetV3 中的 Squeeze-and-Excite 模块在计算图层面的表示
AIO-P 中提出的预测器结构从单个 GNN 回归模型开始(图 3,绿色块),它可以预测图像分类网络的性能。为了在它的基础上加入其他 CV 任务的知识,例如检测或分割,该研究将一个 K-Adapter(图 3,橙色块)附加到原始回归模型上。K-Adapter 在新任务的样本上进行训练,而原模型权重则被冻结。因此,该研究单独训练多个 K-Adapter(图 4)来加入来自多个任务的知识。
图 3. 拥有一个 K-Adapter 的 AIO-P 预测器
图 4. 拥有多个 K-Adapter 的 AIO-P 预测器
为了进一步降低训练每个 K-Adapter 的开销,该研究提出了一种巧妙的伪标签技术。这一技术使用 Latent 采样的方案来训练能共享于不同任务间的 “头部” 模型。共享头部训练之后可以与搜索空间中的任何网络主干配对,并在 10-15 分钟内进行微调以生成伪标签(图 5)。
图 5. 训练能共享于不同任务间的 “头部” 模型
经实验证明,使用共享头部获得的伪标签与通过从零开始训练一个网络一天或更长时间获得的实际性能呈正相关,有时排序相关度系数超过 0.5 (Spearman correlation)。
除此之外,不同的任务会有不同的性能指标。这些性能指标通常有自己特定的分布区间,例如,使用了某一特定主干的分类网络在 ImageNet 上分类准确率可能约为 75%,而在 MS-COCO 物体检测任务上的 mAP 可能为 30-35%。为了考虑这些不同的区间,该研究基于标准化理念提出了一种从正态分布中理解网络性能的方法。通俗的说,如果预测值为 0,则该网络性能为平均值;如果 > 0,则为较优网络;
图 6. 如何标准化网络性能
网络的 FLOPs 与模型大小,输入数据相关,并且通常与性能呈正相关趋势。该研究使用 FLOPs 转换来增强 AIO-P 从中学习的标签。
实验及结果
该研究首先在人体姿态估计和物体检测任务上上训练 AIO-P,然后用它预测多种任务上网络结构的性能,包括姿态估计(LSP 和 MPII),检测(OD),实例分割(IS),语义分割(SS)和全景分割(PS)。即使在零样本直接迁移的情况下,使用 AIO-P 对来自于 Once-for-All(OFA)搜索空间(ProxylessNAS,MobileNetV3 和 ResNet-50)的网络在这些任务上的性能进行预测,最终预测结果达到了低于 1.0%的 MAE 和超过 0.5 的排序相关度。
此外,该研究也使用 AIO-P 预测了 TensorFlow-Slim 开源模型库中的网络的性能(例如 DeepLab 语义分割模型,ResNets,Inception nets,MobileNets 和 EfficientNets),这些网络结构可能未曾在 AIO-P 的训练样本中出现。
AIO-P 通过利用 FLOPs 转换,在 3 个 DeepLab 语义分割模型库上能够实现几乎完美的 SRCC,同时在所有 4 个分类模型库上获得正的 SRCC,以及在 EfficientNet 模型上实现 SRCC=1.0。
最后,AIO-P 的核心动机是能够将其与搜索算法配对,并将其用于优化任意网络结构,可以是独立的,不属于任何搜索空间或已知模型库的结构,甚至可以是一个用于从未训练过的任务的结构。该研究使用 AIO-P 和随机变异搜索算法来优化华为手机上使用的人脸识别(FR)模型,结果显示 AIO-P 能够在降低模型计算量 FLOPs 超过 13.5%的同时保持性能(精度(Pr)和召回率(Rc))。
感兴趣的读者可以阅读论文原文,了解更多研究细节。
今天关于《打破NAS瓶颈,新方法AIO-P跨任务预测架构性能》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于框架,训练的内容请关注golang学习网公众号!

- 上一篇
- 如何在 Windows 11 上保存 Spotlight 集合图像

- 下一篇
- 微软的 Bing AI 变得更笨了,频繁提示“让我们转到一个新主题”提示
-
- 动人的吐司
- 受益颇多,一直没懂这个问题,但其实工作中常常有遇到...不过今天到这,帮助很大,总算是懂了,感谢老哥分享技术贴!
- 2023-04-25 04:15:54
-
- 自然的故事
- 这篇文章太及时了,很详细,太给力了,收藏了,关注老哥了!希望老哥能多写科技周边相关的文章。
- 2023-04-24 01:41:37
-
- 俊秀的画笔
- 太全面了,收藏了,感谢老哥的这篇技术文章,我会继续支持!
- 2023-04-16 22:10:06
-
- 纯情的芒果
- 这篇博文太及时了,up主加油!
- 2023-04-16 06:42:39
-
- 科技周边 · 人工智能 | 1小时前 |
- 水军黑小鹏“背刺王”,高管回应:点赞赚钱
- 448浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 |
- macOS上DeepSeek大模型,Ollama与OpenWebUI的绝佳组合
- 420浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- AI Make Song
- AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
- 21次使用
-
- SongGenerator
- 探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
- 18次使用
-
- BeArt AI换脸
- 探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
- 18次使用
-
- 协启动
- SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
- 20次使用
-
- Brev AI
- 探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
- 22次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览