Transformers+世界模型,竟能拯救深度强化学习?
哈喽!大家好,很高兴又见面了,我是golang学习网的一名作者,今天由我给大家带来一篇《Transformers+世界模型,竟能拯救深度强化学习?》,本文主要会讲到等等知识点,希望大家一起学习进步,也欢迎大家关注、点赞、收藏、转发! 下面就一起来看看吧!
很多人都知道,当年打败李世石、柯洁等一众国际顶尖棋手的AlphaGo一共迭代了三个版本,分别是战胜李世石的一代目AlphaGo Lee、战胜柯洁的二代目AlphaGo Master,以及吊打前两代的三代目AlphaGo Zero。
AlphaGo的棋艺能够逐代递增,背后其实是在AI技术上一个出现了明显的变化趋势,就是强化学习的比重越来越大。
到了近几年,强化学习又发生了一次「进化」,人们把「进化」后的强化学习,称为深度强化学习。
但深度强化学习代理的样本效率低下,这极大地限制了它们在实际问题中的应用。
最近,许多基于模型的方法被设计来解决这个问题,在世界模型的想象中学习是最突出的方法之一。
然而,虽然与模拟环境几乎无限的交互听起来很吸引人,但世界模型必须在很长一段时间内保持准确。
受Transformer在序列建模任务中的成功启发,康奈尔大学的文森特·米凯利、埃洛伊·阿隆索、弗朗索瓦·弗勒雷介绍了IRIS,这是一种数据高效代理,它在由离散自编码器和自回归Transformer组成的世界模型中学习。
在Atari 100k基准测试中,在仅相当于两个小时的游戏时间里,IRIS的平均人类标准化得分为1.046,并且在26场比赛中的10场比赛中表现优于人类。
此前,LeCun曾说,强化学习会走进死胡同。
现在看来,康奈尔大学的文森特·米凯利、埃洛伊·阿隆索、弗朗索瓦·弗勒雷等人,正在将世界模型与强化学习(更准确地说是深度强化学习)融为一体,而连接两者的桥梁,便是Transformers。
深度强化学习有什么不一样
一提到人工智能技术,很多人能想到的,还是深度学习上。
其实,虽然深度学习还活跃在AI领域,但已经暴露出很多问题。
现在深度学习用得最多的就是有监督学习。有监督学习不妨理解成“有参考答案的学习”,它有一个特点,就是数据必须经过标识才能用于训练。但现在海量的数据是未标识数据,且标识成本很高。
以至于针对这种局面,有人调侃道「有多少人工,就有多少智能」。
很多研究人员,甚至包括有不少的大牛都在反思,琢磨深度学习是不是“错了”。
于是,强化学习开始崛起了。
强化学习和有监督学习、无监督学习都不太一样,它是用智能体不断地试错,并按试错结果奖惩AI。这是DeepMind家做各种棋牌AI、游戏AI的路数。这种路径的信徒认为,只要奖励激励设定对头,强化学习终将造出真正AGI。
但强化学习也有问题,用LeCun的话说,就是「强化学习要用巨量数据才能训练模型执行最简单任务」。
于是强化学习与深度学习进行了结合,成为深度强化学习。
深度强化学习,强化学习是骨架,深度学习是灵魂,这是什么意思呢?深度强化学习的主要运行机制,其实与强化学习是基本一致的,只不过使用了深度神经网络来完成这一过程。
更有甚者,有的深度强化学习算法,干脆直接在现成的强化学习算法上,通过添加深度神经网络来实现一套新的深度强化学习算法,非常有名的深度强化学习算法DQN就是典型的例子。
Transformers有什么神奇之处
Transformers首次亮相于2017年,是Google的论文《Attention is All You Need》中提出的。
在 Transformer出现之前,人工智能在语言任务上的进展一直落后于其他领域的发展。「在过去10年发生的这场深度学习革命中,自然语言处理在某种程度上是后来者,」马萨诸塞大学洛厄尔分校的计算机科学家Anna Rumshisky 说,「从某种意义上说,NLP曾落后于计算机视觉,而Transformer改变了这一点。」
近年来,Transformer机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。
Transformer很快成为专注于分析和预测文本的单词识别等应用程序的引领者。它引发了一波工具浪潮,比如OpenAI的GPT-3可以在数千亿个单词上进行训练并生成连贯的新文本。
目前,Transformer架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。比如,Transformer已被用于时间序列预测,同时也是DeepMind的蛋白质结构预测模型 AlphaFold背后的关键创新。
Transformer最近也进入了计算机视觉领域,在许多复杂任务中它们正在慢慢取代卷积神经网络(CNN)。
世界模型与Transformers联手,其他人怎么看
对于康奈尔大学的研究成果,有外国网友评论道:「请注意,这两个小时是来自环境的镜头长度,在GPU上进行训练需要一周的时间」。
还有人质疑:所以这个系统在一个特别精确的潜在世界模型上学习?该模型不需要预先训练吗?
另外,有人觉得,康奈尔大学的文森特·米凯利等人的成果并没有破天荒的突破:「似乎他们只是训练了世界模型,vqvae和演员评论家,所有这些都来自那2个小时的经验(和大约600个纪元)的重播缓冲区」。
参考资料:https://www.reddit.com/r/MachineLearning/comments/x4e4jx/r_transformers_are_sample_efficient_world_models/
今天关于《Transformers+世界模型,竟能拯救深度强化学习?》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于Iris,世界模型,建模的内容请关注golang学习网公众号!

- 上一篇
- 暂停提币 币印为何突遭流动性危机

- 下一篇
- 用人工智能改变金融服务
-
- 科技周边 · 人工智能 | 6小时前 |
- 即梦AI多语言导出设置教程
- 354浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 |
- 豆包AI助你打理花园的实用技巧
- 140浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 |
- 即梦AI去水印技巧分享
- 265浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 |
- AI剪辑工具助力自媒体高效出片
- 293浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 |
- AI工具入门全攻略:从学习到实战路线图
- 334浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 | 算法优化 交叉验证 PerplexityAI 关键词优化 搜索不准确
- PerplexityAI搜索不准?优化算法建议大全
- 464浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 |
- PerplexityAI检索使用教程及功能详解
- 177浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 |
- 小红书爆款公式!DeepSeek10条高赞梗图技巧!
- 264浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 |
- Deepseek联袂DALL·E3,生成超现实创意图
- 388浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 511次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 498次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- UP简历
- UP简历,一款免费在线AI简历生成工具,助您快速生成专业个性化简历,提升求职竞争力。3分钟快速生成,AI智能优化,多样化排版,免费导出PDF。
- 9次使用
-
- 字觅网
- 字觅网,专注正版字体授权,为创作者、设计师和企业提供多样化字体选择,满足您的创作、设计和排版需求,保障版权合法性。
- 7次使用
-
- Style3D AI
- Style3D AI,浙江凌迪数字科技打造,赋能服装箱包行业设计创作、商品营销、智能生产。AI创意设计助力设计师图案设计、服装设计、灵感挖掘、自动生成版片;AI智能商拍助力电商运营生成主图模特图、营销短视频。
- 11次使用
-
- Fast3D模型生成器
- Fast3D模型生成器,AI驱动的3D建模神器,无需注册,图像/文本快速生成高质量模型,8秒完成,适用于游戏开发、教学、创作等。免费无限次生成,支持.obj导出。
- 8次使用
-
- 扣子-Space(扣子空间)
- 深入了解字节跳动推出的通用型AI Agent平台——扣子空间(Coze Space)。探索其双模式协作、强大的任务自动化、丰富的插件集成及豆包1.5模型技术支撑,覆盖办公、学习、生活等多元应用场景,提升您的AI协作效率。
- 29次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览