当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 还是原装Transformer好!北大清华团队同时揭示Mamba等推理短板

还是原装Transformer好!北大清华团队同时揭示Mamba等推理短板

来源:机器之心 2024-10-27 16:27:42 0浏览 收藏

对于一个科技周边开发者来说,牢固扎实的基础是十分重要的,golang学习网就来带大家一点点的掌握基础知识点。今天本篇文章带大家了解《还是原装Transformer好!北大清华团队同时揭示Mamba等推理短板》,主要介绍了,希望对大家的知识积累有所帮助,快点收藏起来吧,否则需要时就找不到了!

还是原装Transformer好!北大清华团队同时揭示Mamba等推理短板
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

北京大学的工作来自智能学院王立威、贺笛老师课题组,发表于ICML 2024。作者包括北京大学图灵班本科生杨铠;苏黎世联邦理工学院硕士生Jan Ackermann;北京大学智能学院博士生何震宇、冯古豪、张博航;纽约大学博士生冯韫禛;北京智源研究院研究员叶启威;清华大学的工作来自于明年即将入职清华大学交叉信息院做助理教授、目前在加州大学伯克利分校 Simons Institute 做博士后的吕凯风研究员。作者包括斯坦福在读一年级博士温凯越;清华大学姚班本科生党星宇。 

思维链(CoT)是大模型中最神秘的现象之一,尤其在数学任务上显著提升了 Transformer 的能力。然而,思维链的引入也使生成内容的长度增加,消耗了更多的计算资源。这不禁让人好奇:最新推出的高效模型(如 Mamba)是否也能像 Transformer 一样具备强大的推理能力?近期,北大和清华的研究团队同时给出了明确的否定答案,揭示了 Mamba 等高效模型在结构上的局限性。

还是原装Transformer好!北大清华团队同时揭示Mamba等推理短板

  • 论文 1:Do Efficient Transformers Really Save Computation? (发表于 ICML 2024)
  • 论文链接:https://arxiv.org/abs/2402.13934

还是原装Transformer好!北大清华团队同时揭示Mamba等推理短板

  • 论文 2:RNNs are not Transformers (Yet): The Key Bottleneck on In-context Retrieval
  • 论文链接:https://arxiv.org/abs/2402.18510

基于 Transformer 的大语言模型在文本翻译、文本生成等许多领域展现了惊人的能力。主流的大语言模型通常采用自回归范式进行生成:由问题描述、相关提示组成的输入序列(prompt)会被首先编码。基于编码后的信息,大模型逐步生成后续的单词序列,以形成问题的答案。对于复杂的问题,已有的实践和理论研究表明,利用思维链提示(CoT)可以显著提升模型在数学或推理方面的问题解决能力。

还是原装Transformer好!北大清华团队同时揭示Mamba等推理短板

如上图,当给出的问题示例中只有最终结果,而没有中间的推理过程时,大模型在见到新问题时往往会生成错误的答案;但如果给出的问题示例中包含了完整的思维链(中间推导步骤),大模型在新问题上也往往会输出完整的思维链并得到正确答案。然而,思维链提示依赖于大量中间步骤的输出,使用 Transformer 架构会产生大量的计算开销。因此,一个自然的问题便是:能否使用更少的计算量,实现思维链推理?许多架构致力于降低注意力机制带来的计算复杂度,能否在这些架构上使用 CoT 提升性能并实现推理的加速?

近期,来自北大和清华的研究团队从理论角度对上述问题进行了深入探讨。结果令人惊讶:两个团队一致证实包括 Sparse Transformer、Linear Transformer、Mamba 在内的许多架构,即使在这些模型上应用思维链,其理论上的能力上限仍无法解决多种实际推理问题,并与标准 Transformer 有本质差距。这些理论结果为高效结构的实用价值蒙上了一层阴影。

Transformer + CoT 依然是最佳选项

北大的研究团队将推理任务通用地建模为动态规划。在推理过程中,模型需要按照合法的拓扑排序逐步输出子问题的结果(即思维链),以最终得出原问题的解。他们从理论角度证明,若希望 Sparse Transformers、Linear Transformers 等模型通过思维链来解决动态规划问题,模型的宽度必须增加,进而导致时间复杂度恰好达到平方级别。这一时间复杂度与标准 Transformers 在相同长度的推理任务中所需的复杂度一致,表明这些所谓的高效结构在一般推理问题上并不具备计算优势。

殊途同归,清华的研究团队考虑了 RNN 模型和 Transformer 模型在检索、关联回忆、计数,以及判断一张图是否为树等基本问题上的表达能力差异。他们从理论角度证明了,对于问题规模 n,任意 o (n) 大小的 RNN 模型均无法完成上述任务,即便使用任意长的 CoT。但一个固定大小的 Transformer 可以不使用 CoT 解决检索、关联回忆、计数等问题,并使用 O (n) 长度的 CoT 正确判断一张图是否为树。这些结果表明类 RNN 的结构使用思维链获得的能力,距离 Transformer 仍有巨大差距

两个研究得出相似结论的背后,揭示了相似的本质。这些模型架构之所以具有内存高效性,是因为它们能够在较少的空间下完全确定输出序列。然而,输出序列的可能性指数级增长,这使得这些架构无法以较小的模型尺寸正确生成所有可能的输出。换句话说,模型的规模必须随着问题规模的增加而扩展。这一核心观察表明,包括 Mamba 在内的具有循环(recurrent)性质的网络架构,都受到了相同的限制。

如何提升其它模型使用思维链的能力?

在得到负面结论的同时,两个团队考虑不同角度设计解决方案。

北大研究团队从推理任务的局部性入手,即当前输出所需要向前依赖的最远输出的距离。局部性反映了推理所需要的长程记忆难度。他们从理论角度证明了,当推理任务有较好的局部性时,许多高效模型能够以理论更优的推理速度完美解决问题。

来自清华的研究团队则从引入上下文检索器的角度入手。他们从理论角度证明了,使用显式上下文检索器或使用一层 Transformer 作为隐式上下文检索器,均可以大大增强 RNN 使用思维链后获得的能力。

研究团队还设计了大量的实验验证理论结果。来自北大的研究团队在多种 Transformer 架构上使用 CoT 数据进行训练,表明标准 Transformer 架构事实上使用了最小的计算量。

还是原装Transformer好!北大清华团队同时揭示Mamba等推理短板

同时,他们的实验结果也表明了良好的推理局部性(下图右列)能够增强多种 Efficient Transformers 的思维链推理能力,表现在使用相同尺寸的模型时能够解决规模更大的推理任务。

还是原装Transformer好!北大清华团队同时揭示Mamba等推理短板

来自清华的研究团队则在 Mamba 和 Transformer 上使用判定图是否为树的任务进行训练,表明 Transformer 结构在此问题上相比于 Mamba 所具有的显著优势,以及在 RNN 上使用上下文检索对性能的影响。

还是原装Transformer好!北大清华团队同时揭示Mamba等推理短板

好了,本文到此结束,带大家了解了《还是原装Transformer好!北大清华团队同时揭示Mamba等推理短板》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多科技周边知识!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
Java中如何通过方法引用定义函数Java中如何通过方法引用定义函数
上一篇
Java中如何通过方法引用定义函数
php 闭包在实际项目中的最佳实践
下一篇
php 闭包在实际项目中的最佳实践
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 笔灵AI生成答辩PPT:高效制作学术与职场PPT的利器
    笔灵AI生成答辩PPT
    探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
    28次使用
  • 知网AIGC检测服务系统:精准识别学术文本中的AI生成内容
    知网AIGC检测服务系统
    知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
    42次使用
  • AIGC检测服务:AIbiye助力确保论文原创性
    AIGC检测-Aibiye
    AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
    39次使用
  • 易笔AI论文平台:快速生成高质量学术论文的利器
    易笔AI论文
    易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
    51次使用
  • 笔启AI论文写作平台:多类型论文生成与多语言支持
    笔启AI论文写作平台
    笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
    42次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码