当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > ACL 2024 | 提升大模型持续学习性能,哈工大、度小满提出共享注意力框架SAPT

ACL 2024 | 提升大模型持续学习性能,哈工大、度小满提出共享注意力框架SAPT

来源:机器之心 2024-05-29 19:51:34 0浏览 收藏

怎么入门科技周边编程?需要学习哪些知识点?这是新手们刚接触编程时常见的问题;下面golang学习网就来给大家整理分享一些知识点,希望能够给初学者一些帮助。本篇文章就来介绍《ACL 2024 | 提升大模型持续学习性能,哈工大、度小满提出共享注意力框架SAPT》,涉及到,有需要的可以收藏一下

ACL 2024 | 提升大模型持续学习性能,哈工大、度小满提出共享注意力框架SAPT
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

赵伟翔是哈尔滨工业大学社会计算与信息检索研究中心2021级直博生,导师为赵妍妍教授和秦兵教授。主要研究方向为对话系统、大语言模型对齐等。他曾以第一作者在ACL、AAAI、IJCAI、COLING等会议上发表论文。

个人主页: https://circle-hit.github.io/

在大模型实际部署落地的过程中,如何赋予大模型持续学习的能力是一个至关重要的挑战。这使其能够动态适应新的任务并不断获得新的知识。大模型的持续学习主要面临两个重大挑战,分别是灾难性遗忘和知识迁移。灾难性遗忘是指模型在学习新任务时会忘记其已掌握的旧任务。知识迁移则涉及如何在学习新任务时有效地利用旧任务的知识来提升新任务学习的效果。

为了更有效应对以上难题,哈工大联合度小满推出针对大模型的共享注意力力挺学习框架SAPT,相应论文已被自然语言处理顶级会议ACL 2024 接收。

ACL 2024 | 提升大模型持续学习性能,哈工大、度小满提出共享注意力框架SAPT

  • 论文:SAPT: A Shared Attention Framework for Parameter-Efficient Continual Learning of Large Language Models

  • 论文地址:https://arxiv.org/abs/2401.08295

研究动机

当前面向大模型的持续学习的工作大都基于参数高效微调(Parameter-Efficient Tuning, PET),而开展,并且可以被抽象为由学习模块和选择模块组成的工作框架。如图1中虚线所示,当新任务对话生成到达时,学习模块会为其分配一个单独的PET块来学习任务特定的知识,并将其存储在PET资源池中,以供后续在测试样本中使用(任务序号在测试阶段无法获取),选择模块能够根据测试输入的结果来选择所属的PET块,得到测试输入的结果。然而,当前工作中每个模块的设计在有效应对矛盾和知识迁移挑战方面都表现出一定的局限性。因此,当前工作中每个模块的设计在有效应对矛盾和知识迁移挑战方面都表现出一定的局限性。

一方面,学习模块的设计旨在促进不同任务之间的知识迁移。不幸的是,学习模块分配的PET只学习当前任务特定知识的现状阻断了存储在已习得的PET块中的来自先前任务知识的潜在迁移,并阻碍它们协助当前新任务知识的获取。

另一方面,选择模块在缓解灾难性遗忘方面发挥着关键作用,因为只有当它能够自动选择当前输入所属的 PET 块时,大模型基座才能成功完成当前任务。然而,当前工作中基于拼接或相加来自所有任务的 PET 块的设计无法有效缓解灾难性遗忘。

更重要的是,他们忽略了将这两个模块进行对齐来同时解决灾难性遗忘和知识迁移。直觉上来看(如图 1 中的实线所示),为了促进新任务学习时的知识迁移,学习模块应该依靠任务相关性来利用先前 PET 块中最相关的知识。而后选择模块可以自然地重复这一注意力过程,通过寻找属于每个测试输入的相应 PET 块的组合来抵抗灾难性遗忘。在本工作中,这种注意力过程被称为共享注意力。由此,这两个模块的端到端对齐能够通过这种共享注意力而建立。

问题定义和设定

持续学习旨在解决学习连续而来的任务序列中的挑战。形式上,任务序列中ACL 2024 | 提升大模型持续学习性能,哈工大、度小满提出共享注意力框架SAPT每个任务依次而来。每个任务ACL 2024 | 提升大模型持续学习性能,哈工大、度小满提出共享注意力框架SAPT包含一个单独的目标数据集,其大小为ACL 2024 | 提升大模型持续学习性能,哈工大、度小满提出共享注意力框架SAPT。在任意时间步 t,模型不仅需要掌握第 t 个任务,而且还要保持其在之前所有任务上的性能不发生明显衰减。

在本工作中,我们深入研究更具挑战性和实用性的持续学习设定,即不同任务的任务序号不可获取:在测试阶段,模型面对输入样本时不知道它们属于哪个特定任务。

ACL 2024 | 提升大模型持续学习性能,哈工大、度小满提出共享注意力框架SAPT

         图 1 当前基于学习模块和选择模块进行大模型持续学习的概念化框架。其中,虚线表示现有工作的流程,实现表示本工作提出方法的工作流程。

方法介绍

本文提出了针对大语言模型的共享注意力持续学习框架 SAPT,为同时应对灾难性遗忘和知识迁移的挑战提供了有效的解决方案。SAPT 的整体架构由两个关键组件组成,如图 2 所示:共享注意力学习与选择模块(SALS)和注意力反思模块(ARM)。在 SALS 中,注意力学习(实线)和注意力选择(虚线)通过共享注意力操作对齐。然后在 ARM 中,我们通过生成的伪样本帮助 SALS 回忆来自以前任务输入对应的正确的注意力权重。

ACL 2024 | 提升大模型持续学习性能,哈工大、度小满提出共享注意力框架SAPT

                                图 2 我们提出的 SAPT 的整体架构,有共享注意力学习与选择模块(左)和注意力反思模块构成(右)。

共享注意力学习与选择模块(SALS):

  • 注意力学习:为了获取来自先前任务的相关知识,当第 t 个任务到达时,通过 Query Projection 层生成查询向量和可学习的键值ACL 2024 | 提升大模型持续学习性能,哈工大、度小满提出共享注意力框架SAPT进行注意力运算,将所有之前的 PET 块的参数ACL 2024 | 提升大模型持续学习性能,哈工大、度小满提出共享注意力框架SAPT和当前ACL 2024 | 提升大模型持续学习性能,哈工大、度小满提出共享注意力框架SAPT通过加权组合进行聚合,用于第 t 个任务的学习。

  • 注意力选择:该部分通过重复注意力学习时的相同的注意力过程,得到现有 PET 块在每个输入样本上的最佳组合,并结合到 LLM 上,完成对当前样本的测试。

注意力反思模块(ARM):

然而,随着依次而来的新任务不断更新 SALS 会导致该模块仅针对最新任务进行最佳注意力组合,从而导致忘记以前任务相应的注意力组合系数。由此,ARM 模块确保来自先前任务的输入仍然可以正确地执行相应的共享注意力操作,以识别每个任务特定的 PET 块的组合。具体方法基于生成式回放得到伪样本,用来对 Query Projection 层进行约束。

ACL 2024 | 提升大模型持续学习性能,哈工大、度小满提出共享注意力框架SAPT

实验结果

我们基于 Prompt Tuning 和 LoRA 这两个具有代表性的参数高效微调方法,在 SuperNI Benchmark,Long Sequence Benchmark 两个评测基准上进行了实验,评价指标为:平均性能(AP)、遗忘率(F.Ra)、前向迁移 (FWT) 以及反向迁移 (BWT)。如表 1 中结果所示,SAPT 具有最高的 AP 和最低的 F.Ra,表明其能够有效应对灾难性遗忘。与此同时,其在 FWT 和 BWT 上也具有最优的表现,体现出 SAPT 能够实现有效的知识迁移。

ACL 2024 | 提升大模型持续学习性能,哈工大、度小满提出共享注意力框架SAPT

                                表 1 基于 T5-Large 模型在两个持续学习基准的总体结果

图 3 展示了在训练(左图)和测试(右图)期间共享注意力的分布示意图。我们可以观察到:(1)PET 块的学习和选择过程是完全对齐的,两个热力图几乎具有相同的布局。(2)知识迁移确实发生在注意力学习过程中,以帮助 SAPT 获取新知识。这些进一步验证了 SAPT 处理灾难性遗忘和知识迁移的有效性。

ACL 2024 | 提升大模型持续学习性能,哈工大、度小满提出共享注意力框架SAPT

                                 图 3 共享注意力的可视化结果。

我们将实验采用的基础大模型拓展到了不同的规模,我们实验分析了 T5 模型大小如何影响 SAPT 的性能。图 4 显示了随着逐渐增大的基础模型大小,即 Large(770M)、XL(3B)和 XXL(11B),SAPT、O-LoRA 和 Replay 在 AP、F.Ra 和 FWT 方面的表现。总体而言,随着基础模型大小的增加,在抵抗灾难性遗忘和促进知识迁移方面,SAPT 始终能够展现出比基线方法更优越的性能。

ACL 2024 | 提升大模型持续学习性能,哈工大、度小满提出共享注意力框架SAPT

                                         图 4 SAPT 基于不同规模的 T5 模块的实验结果

我们也将基础大模型拓展到了不同的架构。图 5 展示了基于不同大小的 T5 和 LLaMA-2 在 SuperNI 基准上的 SAPT 和基线方法的结果。可以观察到,SAPT 依旧能够有效地缓解灾难性遗忘并促进不同模型架构间的知识迁移。此外,平均性能随着模型基础能力的增强而提高(LLaMA-2 > T5),这进一步证明了我们提出的 SAPT 的通用性。

ACL 2024 | 提升大模型持续学习性能,哈工大、度小满提出共享注意力框架SAPT

                                   图 5 SAPT 基于不同架构的大模型的实验结果。

更多详细内容可以参考论文原文。论文提出的方法未来将结合到度小满轩辕大模型中,欢迎大家访问!

大模型项目地址:https://github.com/Duxiaoman-DI/XuanYuan

以上就是本文的全部内容了,是否有顺利帮助你解决问题?若是能给你带来学习上的帮助,请大家多多支持golang学习网!更多关于科技周边的相关知识,也可关注golang学习网公众号。

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
油耗低至1.79升/百公里!比亚迪海豹06 DM-i新款上市,仅售9.98万起油耗低至1.79升/百公里!比亚迪海豹06 DM-i新款上市,仅售9.98万起
上一篇
油耗低至1.79升/百公里!比亚迪海豹06 DM-i新款上市,仅售9.98万起
填补AlphaFold3空白,字节跳动提出物理引导的方法让蛋白质动起来
下一篇
填补AlphaFold3空白,字节跳动提出物理引导的方法让蛋白质动起来
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    509次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI边界平台:智能对话、写作、画图,一站式解决方案
    边界AI平台
    探索AI边界平台,领先的智能AI对话、写作与画图生成工具。高效便捷,满足多样化需求。立即体验!
    363次使用
  • 讯飞AI大学堂免费AI认证证书:大模型工程师认证,提升您的职场竞争力
    免费AI认证证书
    科大讯飞AI大学堂推出免费大模型工程师认证,助力您掌握AI技能,提升职场竞争力。体系化学习,实战项目,权威认证,助您成为企业级大模型应用人才。
    380次使用
  • 茅茅虫AIGC检测:精准识别AI生成内容,保障学术诚信
    茅茅虫AIGC检测
    茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
    522次使用
  • 赛林匹克平台:科技赛事聚合,赋能AI、算力、量子计算创新
    赛林匹克平台(Challympics)
    探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
    624次使用
  • SEO  笔格AIPPT:AI智能PPT制作,免费生成,高效演示
    笔格AIPPT
    SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
    529次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码