当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 清北联合出品!一篇Survey整明白「Transformer+强化学习」的来龙去脉

清北联合出品!一篇Survey整明白「Transformer+强化学习」的来龙去脉

来源:51CTO.COM 2023-05-02 20:53:37 0浏览 收藏
推广推荐
免费电影APP ➜
支持 PC / 移动端,安全直达

编程并不是一个机械性的工作,而是需要有思考,有创新的工作,语法是固定的,但解决问题的思路则是依靠人的思维,这就需要我们坚持学习和更新自己的知识。今天golang学习网就整理分享《清北联合出品!一篇Survey整明白「Transformer+强化学习」的来龙去脉》,文章讲解的知识点主要包括,如果你对科技周边方面的知识点感兴趣,就不要错过golang学习网,在这可以对大家的知识积累有所帮助,助力开发能力的提升。

Transformer模型自发布后,很快就成了自然语言处理和计算机视觉领域在有监督学习设置下的主流神经架构。

虽然Transformer的热潮已经开始席卷强化学习领域,但由于RL本身的特性,例如需要进行独特的特征、架构设计等,当前Transformer与强化学习的结合并不顺利,其发展路线也缺乏相关论文进行贯穿性地总结。

最近来自清华大学、北京大学、腾讯的研究人员联手发表了一篇关于Transformer与强化学习结合的调研论文,系统性地回顾了在强化学习中使用Transformer的动机和发展历程。

图片

论文链接:https://arxiv.org/pdf/2301.03044.pdf

文章中对现有的相关工作成果进行分类,并对每个子领域进行深入讨论,最后还总结了该研究方向的未来前景。

Transformer配RL

强化学习(RL)为序列决策(sequential decision-making)提供了一个数学化的形式,可以让模型自动获得智能行为。

RL为基于学习的控制提供了一个通用框架,随着深度神经网络的引入,深度强化学习(DRL)的通用性在近年来也取得了巨大的进展,但样本效率问题阻碍了DRL在现实世界中的广泛应用。

为了解决这个问题,一个有效的机制是在DRL框架中引入inductive bias,其中比较重要的是函数近似器架构的选择(the choice of function approximator architectures),例如DRL智能体的神经网络的参数化。

然而,与监督学习(SL)中的架构设计相比,在DRL中选择架构设计的问题仍然没有得到充分的探讨,大多数现有的关于RL架构的工作是由(半)监督学习社区的成功所激发的。

例如,处理DRL中基于图像的高维输入的常见做法是引入卷积神经网络(CNN);处理部分可观察性的另一种常见做法是引入递归神经网络(RNN)。

近年来,Transformer架构在广泛的SL任务中彻底改变了学习范式,并表现出比CNN和RNN更优越的性能,比如Transformer架构能够对较长的依赖关系进行建模,并具有出色的可扩展性。

受SL成功启发,行业内对在强化学习中应用Transformer的兴趣激增,最早可以追溯到2018年的一篇论文,其中自注意机制被用于结构化状态表示的关系推理。

之后,许多研究人员开始试图将自注意力应用于表示学习,以提取实体之间的关系,从而可以更好地进行策略学习。

图片

除了状态表示学习外,先前的工作还用Transformer来捕捉多步骤的时间依赖性,以处理部分可观察性问题。

最近,离线RL由于其利用离线大规模数据集的能力而受到关注,相关研究结果也表明,Transformer架构可以直接作为序列决策的模型,并可推广到多个任务和领域。

这篇调研论文的目的是介绍Transformers in Reinforcement Learning领域(TransformRL)。

图片

尽管Transformer已经被认为是目前大多数SL研究的基础模型,但它在RL社区的探索仍然较少。事实上,与SL领域相比,在RL中使用Transformer作为函数近似器需要解决一些不同的问题:

1. RL智能体的训练数据通常是当前策略的函数,这在Transformer学习的过程中会引起不平稳性(non-stationarity)。

2. 现有的RL算法通常对训练过程中的设计选择高度敏感,包括网络架构和容量等。

3. 基于Transformer的架构经常受到高计算和内存成本的影响,也就是说训练和推理起来既慢又贵。

比如在一些游戏中的人工智能案例中,样本生成的效率在很大程度上影响了训练性能,取决于RL策略网络和价值网络的计算成本。

TransformRL的未来

论文中简要回顾了Transformers for RL的进展情况,其优势主要包括:

1. Transformers可以作为RL中的一个powerful模块,比如作为一个表示模块或世界模型;

2. Transformer可以作为一个序列决策器;

3. Transformer可以提升跨任务和领域的泛化性能。

鉴于Transformer在更广泛的人工智能社区都表现出强大的性能,研究人员认为将Transformer和RL结合起来是一个有前途的研究方向,下面是一些关于该方向的未来前景和开放性问题。

结合强化学习和(自)监督学习

追溯TransformRL的发展,可以发现其训练方法同时涵盖了RL和(自)监督学习。

当作为一个在传统RL框架下训练的表示模块时,Transformer架构的优化通常是不稳定的。当使用Transformer通过序列建模来解决决策问题时,(自)监督学习范式可以消除deadly triad problem。

在(自)监督学习的框架下,策略的性能深受离线数据质量的约束,利用(exploitation)和探索(exploration)之间的明确权衡不复存在,因此在Transformer学习中结合RL和(自)监督学习时,可能会学到更好的策略。

一些工作已经尝试了监督预训练和RL参与的微调方案,但在相对固定的策略下,探索会受到限制,这也是有待解决的瓶颈问题之一。

另外,沿着这条路线,用于性能评估的任务也相对简单,Transfomer是否可以将这种(自)监督学习扩展到更大的数据集、更复杂的环境和现实世界的应用也值得进一步探索。

此外,研究人员希望未来的工作能够提供更多的理论和经验见解,以确定在哪些条件下这种(自)监督学习有望表现良好。

图片

通过Transformer连接在线和离线学习

踏入离线RL是TransformRL的一个里程碑,但实际上,利用Transformer来捕捉决策序列中的依赖关系并抽象出策略,主要是与所使用的相当多的离线数据的支持分不开的。

然而,对于一些决策任务来说,在实际应用中摆脱在线框架是不可行的。

一方面,在某些任务中获得专家数据并不那么容易;另一方面,有些环境是开放式的(如Minecraft),这意味着策略必须不断调整,以处理在线互动过程中未见的任务。

因此,研究人员认为把在线学习和离线学习连接在一起是必要的。

Decision Transformer之后的大多数研究进展都集中在离线学习框架上,一些工作试图采用离线预训练和在线微调的范式。然而,在线微调中的分布转变仍然存在于离线RL算法中,研究人员期望通过对Decision Transformer进行一些特殊设计来解决这个问题。

此外,如何从头开始训练一个在线Decision Transformer是一个有趣的开放性问题。

为Decision-making问题量身定做的Transformer结构

目前Decision Transformer系列方法中的Transformer结构主要是vanilla Transformer,它最初是为文本序列设计的,可能具有一些不适合决策问题的性质。

例如,对轨迹序列采用vanilla的自注意力机制是否合适?决策序列中的不同元素或同一元素的不同部分是否需要在位置embedding中加以区分?

此外,由于在不同的Decision Transformer算法中,将轨迹表示为序列的变体有很多,如何从中选择,仍缺乏系统的研究。

例如,在行业中部署此类算法时,如何选择稳健的hindsight信息?

并且vanilla Transformer也是一个计算成本巨大的结构,这使得它在训练和推理阶段都很昂贵,而且内存占用率很高,也限制了它捕获依赖关系的长度。

为了缓解这些问题,NLP中的一些工作改进了Transformer的结构,但类似的结构是否可以用于决策问题也值得探讨。

用Transformer实现更多的通用智能体

论文中对通用智能体(generalist agents)Transformers的回顾已经显示了Transformers作为一种通用策略的潜力。

事实上,Transformer的设计允许使用类似处理blocks的方式来处理多种模态(如图像、视频、文本和语音),并展示了对超大容量网络和巨大数据集的出色可扩展性。

最近的工作也在训练能够执行多模态和跨领域任务的智能体上取得了重大进展。

不过,鉴于这些智能体是在大规模的数据集上进行训练的,目前还不能确定它们是否只是记住了数据集,以及它们是否能进行有效的泛化。

因此,如何学习到一个能够在没有强假设(strong assumption)的情况下对未见过的任务进行泛化的智能体仍然是一个值得研究的问题。

此外,研究人员也很好奇,Transformer是否足够强大到可以用来学习一个可用于不同任务和场景的通用世界模型。

RL for Transformers

虽然文章中已经讨论了RL如何从Transformer模型中受益,但反过来说,用RL来提升Transformer训练仍然是一个有趣的开放性问题,还没有被很好地探索过。

可以看到,最近来自人类反馈的强化学习(RLHF)可以学习到一个奖励模型,并使用RL算法对Transformer进行微调,以使语言模型与人类意图相一致。

在未来,研究人员认为RL可以成为一个有用的工具,进一步完善Transformer在其他领域的表现。

到这里,我们也就讲完了《清北联合出品!一篇Survey整明白「Transformer+强化学习」的来龙去脉》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于强化学习的知识点!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
如何通过网络安全模拟和其他实践来对抗人工智能驱动的威胁如何通过网络安全模拟和其他实践来对抗人工智能驱动的威胁
上一篇
如何通过网络安全模拟和其他实践来对抗人工智能驱动的威胁
AIGC大一统模型来了!CV界泰斗黄煦涛创立团队提出「全能Diffusion」
下一篇
AIGC大一统模型来了!CV界泰斗黄煦涛创立团队提出「全能Diffusion」
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    543次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    516次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    500次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    485次学习
查看更多
AI推荐
  • ChatExcel酷表:告别Excel难题,北大团队AI助手助您轻松处理数据
    ChatExcel酷表
    ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
    3335次使用
  • Any绘本:开源免费AI绘本创作工具深度解析
    Any绘本
    探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
    3547次使用
  • 可赞AI:AI驱动办公可视化智能工具,一键高效生成文档图表脑图
    可赞AI
    可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
    3578次使用
  • 星月写作:AI网文创作神器,助力爆款小说速成
    星月写作
    星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
    4703次使用
  • MagicLight.ai:叙事驱动AI动画视频创作平台 | 高效生成专业级故事动画
    MagicLight
    MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
    3950次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码