当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

来源:机器之心 2024-11-24 19:42:36 0浏览 收藏

珍惜时间,勤奋学习!今天给大家带来《字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%》,正文内容主要涉及到等等,如果你正在学习科技周边,或者是对科技周边有疑问,欢迎大家关注我!后面我会持续更新相关内容的,希望都能帮到正在学习的大家!

字节跳动豆包大模型团队于近日提出超连接(Hyper-Connections),一种简单有效的残差连接替代方案。面向残差连接的主要变体的局限问题,超连接可通过动态调整不同层之间的连接权重,解决梯度消失和表示崩溃(Representation Collapse)之间的权衡困境。在 Dense 模型和 MoE 模型预训练中,超连接方案展示出显著的性能提升效果,使收敛速度最高可加速 80%。

自从 ResNet 提出后,残差连接已成为深度学习模型的基础组成部分。其主要作用是 —— 缓解梯度消失问题,使得网络的训练更加稳定。

但是,现有残差连接变体在梯度消失和表示崩溃之间存在一种 “跷跷板式” 的权衡,无法同时解决。

为此,字节豆包大模型 Foundation 团队于近日提出超连接(Hyper-Connections),针对上述 “跷跷板式” 困境,实现了显著提升。

该方法适用于大规模语言模型(LLMs)的预训练,在面向 Dense 模型和 MoE 模型的实验中,展示了显著性能提升效果,使预训练收敛速度最高可加速 80%。
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
研究团队还发现,超连接在两个小型的视觉任务中表现同样优异,这表明,该方法在多个领域有广泛的应用前景。
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
  • 论文标题:Hyper-Connections
  • 论文链接:https://arxiv.org/pdf/2409.19606

1. 超连接的核心思想

前文提及,残差连接的两种主要变体 Pre-Norm 和 Post-Norm 各自都有其局限性,具体体现如下:

  • Pre-Norm:在每个残差块之前进行归一化操作,可有效减少梯度消失问题。然而,Pre-Norm 在较深网络中容易导致表示崩溃,即深层隐藏表示过于相似,从而削弱了模型学习能力。
  • Post-Norm:在残差块之后进行归一化操作,有助于减少表示崩溃问题,但也重新引入梯度消失问题。在 LLM 中,通常不会采用此方法。

超连接的核心思路在于 —— 引入可学习的深度连接(Depth-connections)和宽度连接(Width-connections)。

从理论上,这使得模型不仅能够动态调整不同层之间的连接强度,甚至能重新排列网络层次结构,弥补了残差连接在梯度消失和表示崩溃(Representation Collapse)之间的权衡困境。

深度连接与宽度连接

起初,该方法会将网络输入扩展为 n 个隐向量(n 称作 Expansion rate)。之后每一层的输入都会是 n 个隐向量,超连接会对这些隐向量建立以下两类连接:

  • 深度连接(Depth-Connections):这些连接类似于残差连接,只为输入与输出之间的连接分配权重,允许网络学习不同层之间的连接强度。
  • 宽度连接(Width-Connections):这些连接使得每一层多个隐藏向量之间可进行信息交换,从而提高模型表示能力。
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
静态与动态超连接

超连接可以是静态的,也可以是动态的。

其中,静态超连接(Static Hyper-Connections, SHC)意味着连接权重在训练结束后固定不变。而动态超连接(Dynamic Hyper-Connections, DHC)则对应连接权重可根据输入动态调整。实验表明,动态超连接效果更好。

2. 技术细节

超连接(Hyper-connections)

首先,考虑第 k 层的输入隐藏向量字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%,网络的初始输入为字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%,并将其复制 n 次,形成初始的超隐藏矩阵(Hyper Hidden Matrix):
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
这里,n 称为扩展率(Expansion Rate)。在第 k 层,输入是上一层的超隐藏矩阵字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%,即:
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
对最后一层的超隐藏矩阵逐行求和,得到所需的隐藏向量,并通过一个投影层输出网络最终的结果(在 Transformer 中即为归一化层和解嵌入层)。

为了简化后续分析的符号表示,作者省略层索引,直接将超隐藏矩阵表示为:
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
超连接可以用一个矩阵来表示,对于扩展率为 n 的情况,超连接矩阵 HC 如下:
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
考虑一层网络字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%,它可能是 Transformer 中的 attention 层或者是 FFN 层。超连接的输出 字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%可以简单地表示为:
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
也就是说,用 字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%作为权重对输入 字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%进行加权求和,得到当前层的输入字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%同时,字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%用于将 字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%映射到残差超隐藏矩阵字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%,表示如下:
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
最终的输出表达式为:
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
伪代码如下:
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
动态超连接的实现

超连接矩阵 字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%的元素可以动态依赖于输入 字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%,动态超连接的矩阵表示为:
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
同样,给定层 字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%和输入字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%,可以得到动态超连接的输出:
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
在实际操作中,团队结合了静态和动态矩阵来实现动态超连接,动态参数通过线性变换获得。

为了稳定训练过程,团队在线性变换前引入归一化,并在其后应用 tanh 激活函数,通过一个可学习的小因子进行缩放。动态参数的计算公式如下:
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
实验表明,动态超连接在语言建模任务中优于静态超连接。

3. 为什么使用超连接(Hyper-Connections)

研究团队认为,残差连接的两种变体,即前归一化(Pre-Norm)和后归一化(Post-Norm),可以被视为不可训练的超连接。

随后,团队引入了顺序 - 并行二象性概念,展示了超连接如何动态优化层的排列以提升网络性能。

残差连接是不可训练的超连接

前归一化和后归一化的残差连接可以表示为以下扩展率为 字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%的超连接矩阵:
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
其中,字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%和 字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80% 分别表示神经网络层输入和输出的标准差,字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%表示它们之间的协方差。

对于 Pre-Norm,其超连接矩阵是一个 字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%的矩阵,右下三角部分填充为 1,其余部分为占位符 0。对于 Post-Norm,权重依赖于输入和输出的方差及协方差,形成一个 字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%的矩阵。因此,它们的超连接矩阵是不可训练的。

而本工作提出的方法的超连接矩阵是 字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%矩阵,且权重是可训练的,甚至可以基于输入进行动态预测。

顺序 - 并行二象性

给定一系列神经网络模块,我们可以将它们顺序排列或并行排列。作者认为,超连接可以学习如何将这些层重新排列,形成顺序和并行配置的混合。
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
在不失一般性的情况下,可以将扩展率设置为 n=2。如果超连接以如下矩阵形式学习,神经网络将被顺序排列:
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
在这种情况下,深度连接退化为残差连接,如图 (a) 所示。

当奇数层和偶数层的超连接矩阵分别定义为以下形式时,神经网络每两层将被并行排列,类似于 Transformer 中的 parallel transformer block 的排列方式,如图 (b) 所示。
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
因此,通过学习不同形式的超连接矩阵,网络层的排列可以超越传统的顺序和并行配置,形成软混合甚至动态排列。对于静态超连接,网络中的层排列在训练后保持固定;而对于动态超连接,排列可以根据每个输入动态调整。

4. 实验结果

实验主要集中在大规模语言模型的预训练上,涵盖了 Dense 模型和 MoE 模型。

实验结果表明,使用超连接的模型显著优于使用残差连接的模型。

1B Dense 模型实验
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
只要扩展率 > 1,效果就十分显著,且训练更稳定,消掉了训练 loss 的 spikes。

7B Dense 模型实验

团队甚至 Scale 到了 7B 模型,效果也十分亮眼,同时可以看到有超连接的网络训练更稳定。
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
7B 候选激活 1.3B 的 MoE 模型实验
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
可以看到,下游指标全涨,在 ARC-Challenge 上甚至涨了 6 个百分点。
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
综上,研究团队介绍了超连接(Hyper-Connections),它解决了残差连接在梯度消失和表示崩溃之间的权衡问题。实验结果表明,超连接在大规模语言模型的预训练以及视觉任务中都表现出显著的性能提升。

值得注意的是,超连接的引入几乎不增加额外的计算开销或参数量,团队认为,该成果具有广泛的应用潜力,可以推广到文音视图模态的不同任务上,包括多模态理解、生成基座模型等。

5. 写在最后

团队关注底层问题,尤其在 LLMs 和多模态方面,期望实现更多突破。

更多团队技术研究进展,可以进入「豆包大模型团队」技术解读栏目了解。

到这里,我们也就讲完了《字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于字节跳动,工程,豆包大模型的知识点!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
如何用 Python 编写干净的代码 - 最佳实践指南如何用 Python 编写干净的代码 - 最佳实践指南
上一篇
如何用 Python 编写干净的代码 - 最佳实践指南
Python线程重复执行问题: 为什么程序执行结束时打印了多个“Thread-5”,却只有一个线程真正执行了?
下一篇
Python线程重复执行问题: 为什么程序执行结束时打印了多个“Thread-5”,却只有一个线程真正执行了?
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 笔灵AI生成答辩PPT:高效制作学术与职场PPT的利器
    笔灵AI生成答辩PPT
    探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
    22次使用
  • 知网AIGC检测服务系统:精准识别学术文本中的AI生成内容
    知网AIGC检测服务系统
    知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
    32次使用
  • AIGC检测服务:AIbiye助力确保论文原创性
    AIGC检测-Aibiye
    AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
    36次使用
  • 易笔AI论文平台:快速生成高质量学术论文的利器
    易笔AI论文
    易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
    45次使用
  • 笔启AI论文写作平台:多类型论文生成与多语言支持
    笔启AI论文写作平台
    笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
    38次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码