谷歌、DeepMind新研究:归纳偏置如何影响模型缩放?
哈喽!今天心血来潮给大家带来了《谷歌、DeepMind新研究:归纳偏置如何影响模型缩放?》,想必大家应该对科技周边都不陌生吧,那么阅读本文就都不会很困难,以下内容主要涉及到,若是你正在学习科技周边,千万别错过这篇文章~希望能帮助到你!
Transformer 模型的缩放近年来引发了众多学者的研究兴趣。然而,对于模型架构所施加的不同归纳偏置的缩放性质,人们了解得并不多。通常假设,在特定标度(计算、大小等)的改进可以迁移到不同的规模和计算区域。
不过,理解架构和标度律之间的相互作用至关重要,设计在不同标度上表现良好的模型具有重要的研究意义。有几个问题还需要搞清楚:模型体系架构之间的缩放性不同吗?如果是这样,归纳偏置如何影响缩放表现?又如何影响上游(预训练)和下游(迁移)任务?
在最近的一篇论文中,谷歌的研究者试图了解归纳偏置(体系架构)对语言模型标度律的影响。为此,研究者在多个计算区域和范围内(从 1500 万到 400 亿参数)预训练和微调了十种不同的模型架构。总体来说,他们预训练和微调了 100 多种不同体系架构和大小的模型,并提出了在缩放这十种不同体系架构方面的见解和挑战。
论文链接:https://arxiv.org/pdf/2207.10551.pdf
他们还注意到,缩放这些模型并不像看起来那么简单,也就是说,缩放的复杂细节与本文中详细研究的体系架构选择交织在一起。例如,Universal Transformers (和 ALBERT) 的一个特性是参数共享。与标准的 Transformer 相比,这种体系架构的选择不仅在性能方面,而且在计算指标如 FLOPs、速度和参数量方面显著 warp 了缩放行为。相反,像 Switch Transformers 这样的模型则截然不同,它的 FLOPs 和参数量之间的关系是不寻常的。
具体来说,本文的主要贡献如下:
- 首次推导出不同归纳偏置和模型架构的标度律。研究者发现这个标度系数在不同的模型中有很大的不同,并指出这是模型开发中的一个重要考虑因素。事实证明,在他们考虑的所有十种体系架构中,普通的 Transformer 拥有最好的缩放性能,即使它在每个计算区域的绝对性能不是最好的。
- 研究者观察到,在一个计算标度区域中运行良好的模型不一定是另一个计算标度区域中的最佳模型。此外,他们发现,某些模型尽管在低计算区域表现良好 ,但是难以进行缩放。这意味着很难通过在某个计算区域进行逐点对比来获得模型缩放性的全貌。
- 研究者发现,当涉及到缩放不同的模型架构时,上游预训练的困惑度可能与下游迁移不太相关。因此,底层架构和归纳偏置对于下游迁移也是至关重要的。
- 研究者强调了在某些架构下进行缩放的困难,并展示了一些模型没有进行缩放(或以消极趋势进行缩放)。他们还发现线性时间注意力模型(比如 Performer)难以进行扩展的趋势。
方法与实验
在论文的第三章,研究者概述了整体的实验设置,并介绍了实验中评估的模型。
下表 1 展示了本文的主要结果,包括可训练参数量、FLOPs(单次正向传递)和速度(每秒步数)等,此外还包括了验证困惑度(上游预训练)和 17 个下游任务的结果。
所有模型的缩放方式是否相同?
下图 2 展示了增加 FLOPs 数量时所有模型的缩放行为。可以观察到,所有模型的缩放行为是相当独特和不同的,即其中大多数不同于标准 Transformer。也许这里最大的发现是,大多数模型(例如 LConv、Evolution)似乎都与标准 Transformer 表现相当或更好,但无法按照更高的计算预算去缩放。
另一个有趣的趋势是,「线性」Transformer,如 Performer,不能按比例缩放。如图 2i 所示,从 base 到 large scale 相比,预训练的困惑度只下降了 2.7% 。而对于 vanilla Transformer 来说这一数字是 8.4%。
下图 3 展示了下游迁移任务上所有模型的缩放曲线,可以发现,和 Transformer 相比,大多数模型有着不同的缩放曲线,在下游任务中变化明显。值得注意的是,大多数模型都有不同的上游或下游缩放曲线。
研究者发现,一些模型如 Funnel Transformer 和 LConv,似乎在上游表现相当不错,但在下游受到很大影响。至于 Performer,上游和下游的性能差距似乎更大。值得注意的是,SuperGLUE 的下游任务通常需要编码器上的伪交叉注意力,而卷积这样的模型是无法处理的(Tay et al., 2021a)。
因此,研究者发现尽管某些模型拥有良好的上游性能,但可能还是难以学习下游任务。
每一标度的最佳模型是否有所不同?
下图 1 展示了根据上游或下游性能进行计算时的帕累托边界。图的颜色代表不同的模型,可以观察到,每个标度和计算区域的最佳模型可能是不同的。此外,从上图 3 中也可以看到这一点。例如,Evolved Transformer 似乎在微小(tiny)到小(small)的区域(下游)和标准 Transformer 一样表现很好,但是当放大模型时,这种情况迅速改变。研究者在 MoS-Transformer 也观察到了这一点,它在某些区域的表现明显优于普通的 Transformer ,但在其他区域则不然。
每个模型的标度律
下表 2 给出了多种情况下每个模型的拟合线性直线 α 的斜率。研究者通过绘制 F(FLOPs)、U (上游困惑度)、D (下游准确率)和 P(参数量)得到了α。一般来说,α 描述了模型的缩放性,例如 α_F,U 根据上游性能绘制 FLOPs。唯一的例外是α_U,D,它是衡量上游和下游性能的度量,高的 α_U,D 值意味着向下游任务迁移的模型缩放更佳。总体来说,α 值是一个度量,表示一个模型在缩放上的相对表现。
Scaling Protocols 是否以同样的方式影响模型体系架构?
下图 4 展示了四个模型体系架构(MoS-Transformer、Transformer、Evolved Transformer、LConv)中缩放深度的影响。
下图 5 展示了在相同的四个体系架构中缩放宽度的影响。首先,在上游(负对数困惑)曲线上可以注意到,虽然不同的架构在绝对性能上有明显的差异,但缩放趋势仍然非常相似。在下游,除了 LConv 之外,深度缩放(上图 4)在大多数体系架构上的作用似乎是一样的。同时,相对于宽度缩放,似乎 Evolved Transformer 在应用宽度缩放时会稍微好一点。值得注意的是,与宽度缩放相比,深度缩放对下游缩放的影响要大得多。
更多研究细节,可参考原论文。
终于介绍完啦!小伙伴们,这篇关于《谷歌、DeepMind新研究:归纳偏置如何影响模型缩放?》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布科技周边相关知识,快来关注吧!

- 上一篇
- 资源受限如何提高模型效率?一文梳理NLP高效方法

- 下一篇
- 全球首个 AI 律师出庭计划被搁置:“同行”强烈反对,开发者还有可能坐牢
-
- 科技周边 · 人工智能 | 3小时前 |
- Xmind+DeepSeek,手把手教你打造专属知识图谱
- 393浏览 收藏
-
- 科技周边 · 人工智能 | 3小时前 |
- 深度学习利器!DeepSeek满血版来了,18种云平台部署教程分享~
- 338浏览 收藏
-
- 科技周边 · 人工智能 | 3小时前 |
- 即梦AI云端同步攻略:手把手教你数据备份与恢复
- 378浏览 收藏
-
- 科技周边 · 人工智能 | 3小时前 |
- DeepSeek大模型教程:手把手教你用AI管理百度网盘文件
- 485浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 |
- 即梦AI怎么导出高清封面?超详细封面生成教程
- 468浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 |
- Anthropic推出CircuitTracer:AI模型内部决策分析神器
- 285浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 |
- DeepSeek满血版怎么免费用?高阶功能一键全解析(官方推荐)
- 462浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 |
- 五分钟教程!DeepSeek+钉钉打造办公自动化,效率提升两倍!
- 112浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 |
- 新版CursorRules特性玩转.mdc文档,Gemini2.5Pro教你优雅替代cursorrules
- 351浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 |
- 即梦ai怎么提取高清封面?手把手教你搞定!
- 244浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 互联网信息服务算法备案系统
- 了解互联网信息服务算法备案系统,掌握如何进行算法备案的详细步骤和要求,确保您的互联网服务合规运营。
- 60次使用
-
- 魔匠AI
- SEO摘要魔匠AI专注于高质量AI学术写作,已稳定运行6年。提供无限改稿、选题优化、大纲生成、多语言支持、真实参考文献、数据图表生成、查重降重等全流程服务,确保论文质量与隐私安全。适用于专科、本科、硕士学生及研究者,满足多语言学术需求。
- 106次使用
-
- PPTFake答辩PPT生成器
- PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
- 139次使用
-
- Lovart
- SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
- 269次使用
-
- 美图AI抠图
- 美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
- 126次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览