当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 低秩适应的大规模模型

低秩适应的大规模模型

来源：网易伏羲 2024-01-24 20:39:12 0浏览收藏

欢迎各位小伙伴来到golang学习网，相聚于此都是缘哈哈哈！今天我给大家带来《低秩适应的大规模模型》，这篇文章主要讲到等等知识，如果你对科技周边相关的知识非常感兴趣或者正在自学，都可以关注我，我会持续更新相关文章！当然，有什么建议也欢迎在评论留言提出！一起学习！

大模型的低秩适应

大模型的低秩适应是一种降低复杂性的方法，通过用低维结构近似大型模型的高维结构。其目的是创建一个更小、更易于管理的模型表示，仍能保持良好的性能。在许多任务中，大型模型的高维结构可能存在冗余或不相关的信息。通过识别和删除这些冗余，可以创建一个更高效的模型，同时保持原始性能，并且可以使用更少的资源来训练和部署。

低秩适应是一种能够加速大型模型训练的方法，同时还能够降低内存消耗。它的原理是将预训练模型的权重冻结，并将可训练的秩分解矩阵引入到Transformer架构的每一层中，从而显著减少下游任务的可训练参数数量。这种方法通过将原始矩阵分解为两个秩不同的矩阵的乘积来实现。只需使用低秩矩阵进行计算，就可以减少模型参数数量，提高训练速度，并且在模型质量方面表现出色，而且不会增加推理延迟。

低秩适应示例

以GPT-3模型为例，大模型的低秩适应（LoRA）是一种通过优化密集层中的秩分解矩阵来间接训练神经网络中的一些密集层的方法。LoRA的优势在于只需对部分参数进行微调，而不是对整个模型进行全参数训练，从而提高了部署时的操作效率。在GPT-3模型中，LoRA只需要对一个秩极低的分解矩阵进行优化，就能够达到与全参数微调相当的性能。这种方法不仅在存储和计算方面非常高效，而且能够有效地减少过拟合问题，提高模型的泛化能力。通过LoRA，大模型可以更加灵活地应用于各种场景，为深度学习的发展带来了更多的可能性。

此外，低秩适应的思想很简单。它通过在原始PLM（预训练语言模型）旁边增加一个旁路来实现，这个旁路执行降维再升维的操作，以模拟所谓的内在维度。在训练过程中，固定PLM的参数，只训练降维矩阵A和升维矩阵B。模型的输入输出维度不变，但在输出时将BA与PLM的参数叠加。降维矩阵A使用随机高斯分布初始化，而升维矩阵B则使用0矩阵初始化，这样可以确保在训练开始时旁路矩阵仍然是0矩阵。

这种思想与残差连接有一些相似之处，它通过使用旁路的更新来模拟full finetuning的过程。事实上，full finetuning可以被看作是LoRA的一个特例，即当r等于k时。这意味着，通过将LoRA应用于所有权重矩阵并训练所有偏置项，同时将LoRA的秩r设置为预训练权重矩阵的秩k，我们大致可以恢复full finetuning的表达能力。换句话说，随着可训练参数数量的增加，LoRA的训练趋向于原始模型的训练，而adapter-based方法则趋向于一个MLP，prefix-based方法则趋向于一个无法处理长输入序列的模型。因此，LoRA提供了一种灵活的方式来平衡可训练参数数量和模型的表达能力。