当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 你没有看过的全新版本,Transformer数学原理揭秘

你没有看过的全新版本,Transformer数学原理揭秘

来源:机器之心 2024-01-13 21:07:47 0浏览 收藏

本篇文章给大家分享《你没有看过的全新版本,Transformer数学原理揭秘》,覆盖了科技周边的常见基础知识,其实一个语言的全部知识点一篇文章是不可能说完的,但希望通过这些问题,让读者对自己的掌握程度有一定的认识(B 数),从而弥补自己的不足,更好的掌握它。

近日,arxiv 上发布了一篇论文,对 Transformer 的数学原理进行全新解读,内容很长,知识很多,十二分建议阅读原文。

2017 年,Vaswani 等人发表的 《Attention is all you need》成为神经网络架构发展的一个重要里程碑。这篇论文的核心贡献是自注意机制,这是 Transformers 区别于传统架构的创新之处,在其卓越的实用性能中发挥了重要作用。

事实上,这一创新已成为计算机视觉和自然语言处理等领域人工智能进步的关键催化剂,同时在大语言模型的出现中也起到了关键作用。因此,了解 Transformers,尤其是自注意处理数据的机制,是一个至关重要但在很大程度上尚未充分研究的领域。

你没有看过的全新版本,Transformer数学原理揭秘

论文地址:https://arxiv.org/pdf/2312.10794.pdf

深度神经网络(DNNs)有一个共同特征:输入数据按照顺序,被逐层处理,形成一个时间离散的动态系统(具体内容可以参考 MIT 出版的《深度学习》,国内也被称为「花书」)。这种观点已被成功地用于将残差网络建模到时间连续的动态系统上,后者被称为神经常微分方程(neural ODEs)。在神经常微分方程中,输入图像 你没有看过的全新版本,Transformer数学原理揭秘在时间间隔 (0,T) 上会按照给定的时变速度场 你没有看过的全新版本,Transformer数学原理揭秘进行演化。因此,DNN 可以看作是从一个 你没有看过的全新版本,Transformer数学原理揭秘 到另一个图片的流映射(Flow Map)你没有看过的全新版本,Transformer数学原理揭秘。即使在经典 DNN 架构限制下的速度场你没有看过的全新版本,Transformer数学原理揭秘中,流映射之间也具有很强的相似性。

研究者们发现,Transformers 实际上是在你没有看过的全新版本,Transformer数学原理揭秘上的流映射,即 d 维概率测度空间(the space of probability measures)间的映射。为了实现这种在度量空间间进行转换的流映射,Transformers 需要建立了一个平均场相互作用的粒子系统(mean-field interacting particle system.)。

具体来说,每个粒子(在深度学习语境下可以理解为 token)都遵循向量场的流动,流动取决于所有粒子的经验测度(empirical measure)。反过来,方程决定了粒子经验测量的演变进程,这个过程可能会持续很长时间,需要进行持续关注。

对此,研究者的主要观察结果是,粒子们往往最终会聚集到一起。这种现象在诸如单向推导(即预测序列中的下一个词)的学习任务中会尤为明显。输出度量对下一个 token 的概率分布进行编码,根据聚类结果就可以筛选出少量可能的结果。

本文的研究结果表明,极限分布实际上是一个点质量,不存在多样性或随机性,但这与实际观测结果不符。这一明显的悖论因粒子存在长时间的可变状态得到解决。从图 2 和图 4 中可以看出,Transformers 具有两种不同的时间尺度:在第一阶段,所有 token 迅速形成几个簇,而在第二阶段(较第一阶段速度慢得多),通过簇的成对合并过程,所有 token 最终坍缩为一个点。

你没有看过的全新版本,Transformer数学原理揭秘

你没有看过的全新版本,Transformer数学原理揭秘

本文的目标有两个方面。一方面,本文旨在提供一个从数学角度研究 Transformers 通用且易于理解的框架。特别是,通过这些相互作用粒子系统的结构,研究者可以将其与数学中的既定主题建立具体联系,包括非线性传输方程、Wasserstein 梯度流、集体行为模型和球面上点的最优化配置等。另一方面,本文描述了几个有前景的研究方向,并特别关注长时间跨度下的聚类现象。研究者提出的主要结果指标都是新的,并且还在整篇论文中提出了他们认为有趣的开放性问题。

本文的主要贡献分为三个部分。

你没有看过的全新版本,Transformer数学原理揭秘


第 1 部分:建模。本文定义了 Transformer 架构的理想模型,该模型将层数视为连续时间变量。这种抽象方法并不新颖,与 ResNets 等经典架构所采用的方法类似。本文的模型只关注 Transformer 架构的两个关键组成部分:自注意力机制和层归一化。层归一化有效地将粒子限制在单位球 你没有看过的全新版本,Transformer数学原理揭秘的空间内部,而自注意力机制则是通过经验度量实现粒子之间的非线性耦合。反过来,经验度量根据连续性偏微分方程进行演化。本文还为自注意引入了一个更简单好用的替代模型,一个能量函数的 Wasserstein 梯度流,而能量函数在球面上点的最优配置已经有成熟的研究方法。

第二部分:聚类。在这一部分,研究者提出了在较长时间跨度下,token 聚类的新的数学结果。如定理 4.1 表明,在高维空间中,一组随机初始化在单位球上的 n 个粒子会在你没有看过的全新版本,Transformer数学原理揭秘时聚成一个点。研究者对粒子集群收缩率的精确描述对这一结果进行了补充说明。具体来说,研究者绘制了所有粒子间距离的直方图,以及所有粒子快要完成聚类的时间点(见原文第 4 节)。研究者还在不假设维数 d 较大的情况下就得到了聚类结果(见原文第 5 节)。

第 3 部分:未来展望。本文主要以开放式问题的形式提出问题,并通过数字观测加以证实,以此提出了未来研究的潜在路线。研究者首先关注维数 d = 2 的情况(见原文第 6 节),并引出与 Kuramoto 振荡器的联系。然后简要展示了如何通过对模型进行简单而自然的修改,解决球面最优化相关的难题(见原文第 7 节)。接下来的章节探讨了相互作用的粒子系统,这些粒子系统使得对 Transformer 架构中的参数进行调整成为可能,日后可能会进一步产生实际应用。

终于介绍完啦!小伙伴们,这篇关于《你没有看过的全新版本,Transformer数学原理揭秘》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布科技周边相关知识,快来关注吧!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
win8启动慢怎么回事win8启动慢怎么回事
上一篇
win8启动慢怎么回事
win7无线功能怎么开启
下一篇
win7无线功能怎么开启
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    16次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    12次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    12次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    16次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    17次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码