当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 削减Transformer的秩,剔除特定层90%以上的组件,同时不降低LLM的性能

削减Transformer的秩,剔除特定层90%以上的组件,同时不降低LLM的性能

来源:51CTO.COM 2023-12-26 18:28:40 0浏览 收藏

科技周边小白一枚,正在不断学习积累知识,现将学习到的知识记录一下,也是将我的所得分享给大家!而今天这篇文章《削减Transformer的秩,剔除特定层90%以上的组件,同时不降低LLM的性能》带大家来了解一下##content_title##,希望对大家的知识积累有所帮助,从而弥补自己的不足,助力实战开发!

在大型模型时代,Transformer独自支撑起了整个科研领域。自从发布以来,基于Transformer的语言模型在各种任务上展现出了出色的性能,在自然语言建模和推理方面的底层Transformer架构已经成为最先进的技术,在计算机视觉和强化学习等领域也显示出了强大的前景

当前的 Transformer 架构非常庞大,通常需要大量的计算资源来进行训练和推理

这是有意为之的,因为经过更多参数或数据训练的 Transformer 显然比其他模型更有能力。尽管如此,越来越多的工作表明,基于 Transformer 的模型以及神经网络不需要所有拟合参数来保留其学到的假设。 

一般来说,在训练模型时大规模过度参数化似乎有帮助,但这些模型在推理之前可以进行大幅剪枝;研究表明,神经网络通常可以去除90%以上的权重,而性能不会有明显下降。这种现象促使研究者开始转向研究有助于模型推理的剪枝策略

来自麻省理工学院和微软的研究人员在一篇名为《真相就在其中:通过层选择性排名减少提高语言模型的推理能力》的论文中提出了一个令人惊讶的发现。他们发现,在Transformer模型的特定层进行精细的剪枝可以显著提高模型在某些任务上的性能

给Transformer降降秩,移除特定层90%以上组件,LLM性能不减

  • 论文地址:https://arxiv.org/pdf/2312.13558.pdf
  • 论文主页:https://pratyushasharma.github.io/laser/

研究中将这种简单的干预措施称为LASER(LAyer SElective Rank reduction,层选择性降秩)。它通过奇异值分解有选择地减少Transformer模型中特定层的学习权重矩阵的高阶分量,从而显著提高LLM的性能。这种操作可以在模型训练完成后进行,而且无需额外的参数或数据

在操作过程中,权重的减少是通过对模型特定的权重矩阵和层进行执行的。研究还发现,许多类似的矩阵都能够显著地减少权重,并且在删除超过90%的组件之前,通常不会观察到性能下降

研究还发现,减少这些因素可以显著提高准确率。有趣的是,这一发现不仅适用于自然语言,对于强化学习也能提升性能

此外,这项研究试图推断出存储在高阶组件中的内容,以便通过删除来提高性能。研究发现,在使用LASER回答问题之后,原始模型主要使用高频词(如“the”、“of”等)作出回应。这些词与正确答案的语义类型甚至不相符,也就是说在没有干预的情况下,这些成分会导致模型生成一些不相关的高频词汇

然而,通过进行一定程度的降秩后,模型的回答可以转变为正确的。

为了理解这一点,该研究还探索了其余组件各自编码的内容,他们仅使用其高阶奇异向量来近似权重矩阵。结果发现这些组件描述了与正确答案相同语义类别的不同响应或通用高频词。

这些结果表明,当嘈杂的高阶分量与低阶分量组合时,它们相互冲突的响应会产生一种平均答案,这可能是不正确的。图 1 直观地展示了 Transformer 架构和 LASER 遵循的程序。在这里,特定层的多层感知器(MLP)的权重矩阵被替换为其低秩近似。

LASER 概览 

研究者对LASER干预进行了详细介绍。单步LASER干预是通过三个参数(τ、ℓ和ρ)来定义的。这些参数共同描述了要被低秩近似替代的矩阵以及近似的程度。研究者根据参数类型对待干预的矩阵进行分类

研究者关注的重点是矩阵 W = {W_q, W_k, W_v, W_o, U_in, U_out},该矩阵由多层感知机(MLP)和注意力层中的矩阵组成。层数表示研究者干预的层级,其中第一层的索引是0。例如,Llama-2有32个层级,因此表示为 ℓ ∈ {0, 1, 2,・・・31}

最终,ρ ∈ [0, 1) 描述了在做低秩近似时应该保留最大秩的哪一部分。例如设给Transformer降降秩,移除特定层90%以上组件,LLM性能不减,则该矩阵的最大秩为 d。研究者将它替换为⌊ρ・d⌋- 近似。

以下是需要 在下图1中,展示了一个LASER的示例。图中的符号τ = U_in和ℓ = L表示在第L层的Transformer块中更新MLP的第一层权重矩阵。还有一个参数用于控制rank-k近似中的k值

给Transformer降降秩,移除特定层90%以上组件,LLM性能不减

LASER 可以限制网络中某些信息的流动,并出乎意料地产生显著的性能优势。这些干预也可以很容易组合起来,比如以任何顺序来应用一组干预给Transformer降降秩,移除特定层90%以上组件,LLM性能不减

LASER 方法只是对这类干预进行简单的搜索,并修改以带来最大收益。不过,还有很多其他方法可以将这些干预组合起来,这是研究者未来工作的方向。

实验结果

在实验部分,研究者使用了在 PILE 数据集上预训练的 GPT-J 模型,该模型的层数为 27,参数为 60 亿。然后在 CounterFact 数据集上评估模型的行为,该数据集包含(主题、关系和答案)三元组的样本,每个问题提供了三个释义 prompt。

首先,我们对 GPT-J 模型在 CounterFact 数据集上进行了分析。图 2 展示了在 Transformer 架构中,将不同数量的降秩应用于每个矩阵后,对数据集分类损失的影响。每个 Transformer 层由一个两层的小型 MLP 组成,输入和输出矩阵分别显示。不同颜色表示移除组件的不同百分比

给Transformer降降秩,移除特定层90%以上组件,LLM性能不减

关于提升释义的准确度和稳健性,如上图 2 和下表 1 所示,研究者发现,当在单层上进行降秩时,GPT-J 模型在 CounterFact 数据集上的事实准确度从 13.1% 增加到了 24.0%。需要注意一点,这些改进只是降秩的结果,并不涉及对模型的任何进一步训练或微调。

给Transformer降降秩,移除特定层90%以上组件,LLM性能不减

哪些事实在进行降秩恢复时会得到恢复?研究者发现,通过降秩恢复得到的事实很可能在数据集中出现的次数非常少,如图3所示

给Transformer降降秩,移除特定层90%以上组件,LLM性能不减

高阶组件存储什么呢?研究者使用高阶组件近似最终的权重矩阵(而不像 LASER 那样使用低阶组件来近似),如下图 5 (a) 所示。当使用不同数量的高阶组件来近似矩阵时,他们测量了真实答案相对于预测答案的平均余弦相似度,如下图 5 (b) 所示。

给Transformer降降秩,移除特定层90%以上组件,LLM性能不减

研究者最终对他们发现的三种不同的LLM在多项语言理解任务上的普适性进行了评估。对于每个任务,他们使用生成准确度、分类准确度和损失三个指标来评估模型的性能。根据表1的结果显示,即使矩阵的秩降低很大,也不会导致模型准确度下降,反而能提升模型的性能

到这里,我们也就讲完了《削减Transformer的秩,剔除特定层90%以上的组件,同时不降低LLM的性能》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于AI,模型的知识点!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
夸克App升级,从健康场景开始革新搜索体验夸克App升级,从健康场景开始革新搜索体验
上一篇
夸克App升级,从健康场景开始革新搜索体验
一加 Ace 3 首发三种颜色的手机,硬件配置信息曝光
下一篇
一加 Ace 3 首发三种颜色的手机,硬件配置信息曝光
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • SEO标题魔匠AI:高质量学术写作平台,毕业论文生成与优化专家
    魔匠AI
    SEO摘要魔匠AI专注于高质量AI学术写作,已稳定运行6年。提供无限改稿、选题优化、大纲生成、多语言支持、真实参考文献、数据图表生成、查重降重等全流程服务,确保论文质量与隐私安全。适用于专科、本科、硕士学生及研究者,满足多语言学术需求。
    19次使用
  • PPTFake答辩PPT生成器:一键生成高效专业的答辩PPT
    PPTFake答辩PPT生成器
    PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
    35次使用
  • SEO标题Lovart AI:全球首个设计领域AI智能体,实现全链路设计自动化
    Lovart
    SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
    35次使用
  • 美图AI抠图:行业领先的智能图像处理技术,3秒出图,精准无误
    美图AI抠图
    美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
    43次使用
  • SEO标题PetGPT:智能桌面宠物程序,结合AI对话的个性化陪伴工具
    PetGPT
    SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
    44次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码