当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了

来源:机器之心 2024-06-16 22:21:30 0浏览 收藏

一分耕耘,一分收获!既然都打开这篇《ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了》,就坚持看下去,学下去吧!本文主要会给大家讲到等等知识点,如果大家对本文有好的建议或者看到有不足之处,非常欢迎大家积极提出!在后续文章我会继续更新科技周边相关的内容,希望对大家都有所帮助!

如果 GPT-4 在模拟基于常识任务的状态变化时准确率都只有约 60%,那么我们还要考虑将大语言模型作为世界模拟器来使用吗?


最近两天,一篇入选 ACL 2024 的论文《Can Language Models Serve as Text-Based World Simulators?》在社交媒体 X 上引发了热议,就连图灵奖得主 Yann LeCun 也参与了进来。

这篇论文探讨的问题是:当前语言模型本身是否可以充当世界模拟器,并正确预测动作如何改变不同的世界状态,从而避免大量手动编码的需要呢

针对这一问题,来自亚利桑那大学、纽约大学、约翰斯・霍普金斯大学、微软研究院、 艾伦人工智能研究所等机构的研究者在「基于文本的模拟器」上下文中给出了他们的答案。

他们认为:语言模型并不能作为世界模拟器使用。比如,GPT-4 在模拟基于常识任务(如烧开水)的状态变化时,准确率仅为约 60%。

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了                                     x 地址:https://x.com/peterjansen_ai/status/1801687501557665841

Yann LeCun 对这篇论文的发现表示了认同,并认为「没有世界模型,也就没有规划。」

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了                                  X 地址:https://x.com/ylecun/status/1801978192950927511

不过也有人表达了不同的观点:当前 LLM(没有进行针对性任务训练)的准确率可以达到 60%,这不就说明了它们至少是「一定程度上的世界模型」吗?并且会随着 LLM 的迭代而持续改进。LeCun 又表示,世界模型不会是 LLM。

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了

回到论文中,研究者构建并使用了一个全新的基准,他们称为「ByteSized32-State-Prediction」,包含了一个文本游戏状态转换和随附游戏任务组成的数据集。他们首次使用该基准来直接量化大语言模型(LLM)作为基于文本的世界模拟器的性能。

通过在这个数据集上测试 GPT-4,研究者发现:尽管它的性能令人印象深刻,但如果没有进一步的创新,它仍然是一个不可靠的世界模拟器。

因此,研究者认为,他们的工作既为当前 LLM 的能力和弱点提供了新的见解,也为跟踪新模型出现时的未来进展提供了一个新的基准。

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了

论文地址:https://arxiv.org/pdf/2406.06485

方法概览

研究者探究了 LLM 在基于文本的虚拟环境中充当世界模拟器的能力,在这种环境中,智能体接收观察结果并以自然语言提出操作以完成某些目标。

每个文本环境都可以正式表示为具有 7 元组 (S,A,T,O,R,C,D) 的目标条件部分可观察马尔可夫决策过程 (POMDP),S 表示状态空间,A 表示动作空间,T : S×A→S 表示转换函数,O 表示观察函数,R : S×A→R 表示奖励函数,C 表示描述目标和动作语义的自然语言「上下文消息」,D : S×A→{0,1} 表示二元完成指示函数。

大模型模拟器(LLM-Sim)任务

研究者提出了一个预测任务,称它为 LLM as-a-Simulator (LLM-Sim),用来定量评估语言模型作为可靠模拟器的能力

LLM-Sim 任务是将一个函数 F : C×S×A→S×R×{0,1} 作为世界模拟器来实现。在实践中,完整状态转换模拟器 F 应该考虑两种类型的状态转换:动作驱动转换和环境驱动转换

图 1 为使用 LLM 作为文本游戏模拟器的示例:打开水槽后,水槽中的杯子被水填满的过程。动作驱动转换是采取打开水槽的动作后,水槽被打开(isOn=true);而环境驱动转换是在水槽打开时,水填满水槽中的杯子。

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了

为了更好地理解 LLM 对每个转换进行建模的能力,研究者进一步将模拟器函数 F 分解为三个步骤:

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了

  • 动作驱动转换模拟器:给定 c、s_t 和 a_t, F_act:C×S×A→S 预测 s^act_t+1,其中 s^act_t+1 表示动作引起的直接状态变化。
  • 环境驱动转换模拟器:给定 c 和 s^act_t+1,F_env:C×S→S 预测 s_t+1,其中 s_t+1 是任何环境驱动转换后产生的状态。
  • 游戏进度模拟器:给定 c、s_t+1 和 a_t, F_R:C×S×A→R×{0,1} 预测奖励 r_t+1 和游戏完成状态 d_t+1。

此外,研究者考虑了 LLM-Sim 任务的两种变体

  • 完整状态预测:LLM 输出完整状态。
  • 状态差异预测:LLM 仅输出输入和输出状态之间的差异。

数据和评估

为了完成这一任务,研究者引入了一个新的文本游戏状态转换数据集。该数据集为 「BYTESIZED32-State-Prediction (BYTESIZED32-SP) 」,它包含 76,369 个转换,表示为 (c,s_t,rt,d_t,a_t,s^act_t+1,s_t+1,r_t+1,d_t+1) 元组。这些转换是从 31 个不同的文本游戏中收集的。

下表 1 总结了额外语料库统计数据。

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了

LLM-Sim 上的性能由模型相对于测试样本数据集上的真实标签的预测准确性来决定。根据实验条件,LLM 必须模拟对象属性(模拟 F_act、F_env 或 F)和 / 或游戏进度(模拟 F_R 或 F),定义如下:

  • 对象属性:游戏中所有对象、每个对象的属性(如温度、大小),以及与其他对象的关系(如在另一个对象内或之上)。
  • 游戏进度:智能体相对于总体目标的状态,包括当前累积的奖励、游戏是否已终止以及总体目标是否已实现。

研究者注意到,在每种情况下,LLM 都提供了 ground truth 先前状态(当函数为 F_env 时,先前状态为 s^act_t+1 )以及整体任务上下文。也就是说,LLM 始终执行单步预测。

实验结果

上图 1 演示了研究者使用上下文学习评估 LLM-Sim 任务中模型的性能。他们评估了 GPT-4 在完整状态和状态差异预测机制中的准确性。该模型接收先前状态(编码为 JSON 对象)、先前操作和上下文消息,并生成后续状态(作为完整的 JSON 对象或差异)。

下表 2 展示了 GPT-4 模拟完整状态转换的准确性,以及单独模拟动作驱动转换和环境驱动转换的准确性。

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了

研究者得出了以下几项重要发现:

预测动作驱动转换比预测环境驱动转换更容易。在最好的情况下,GPT-4 能够正确模拟 77.1% 的动态动作驱动转换。相比之下,GPT-4 最多只能正确模拟 49.7% 的动态环境驱动转换。

预测静态转换比动态转换更容易。不出所料,在大多数情况下,对静态转换进行建模比对动态转换进行建模要容易得多。

对于动态状态,预测完整游戏状态更容易;而对于静态状态,预测状态差异更容易。预测动态状态的状态差异可以显著提高模拟静态转换的性能(>10%),而模拟动态转换时的性能会降低。

游戏规则很重要,LLM 能够生成足够好的游戏规则。当上下文消息中未提供游戏规则时,GPT-4 在所有三个模拟任务上的性能在大多数情况下都会下降。

GPT-4 在大多数情况下都能预测游戏进度。下表 3 展示了 GPT-4 预测游戏进度的结果。在上下文中加入了游戏规则信息后,GPT-4 可以在 92.1% 的测试用例中正确预测游戏进度。这些规则的存在在上下文中至关重要:如果没有它们,GPT-4 的预测准确率会下降到 61.5%。

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了

人类在 LLM-Sim 任务中的表现优于 GPT-4。研究者对 LLM-Sim 任务进行了初步的人类研究。结果见下表 4。

结果发现,人类的整体准确率为 80%,而采样的 LLM 的准确率为 50%,并且不同注释者之间的差异很小。这表明,虽然任务对于人类来说总体上是直观且相对容易的,但对于 LLM 来说仍有很大的改进空间。 

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了

GPT-4 在需要算术、常识或科学知识时更容易出错。下图 2 展示了在整体状态转换、动作驱动转换和环境驱动转换中,预测结果的正确比例、将属性设置为不正确值的比例或未能更改属性值的比例。

我们可以观察到,GPT-4 能够很好地处理大多数简单的布尔值属性。错误集中出现在需要算术(如温度、timeAboveMaxTemp)、常识(如 current_aperture、current_focus)或科学知识(如 on)的非平凡属性上。

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了

更多技术细节和实验结果请参阅原论文。

理论要掌握,实操不能落!以上关于《ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了》的详细介绍,大家都掌握了吧!如果想要继续提升自己的能力,那么就来关注golang学习网公众号吧!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
golang框架中数据库访问的最佳实践有哪些?golang框架中数据库访问的最佳实践有哪些?
上一篇
golang框架中数据库访问的最佳实践有哪些?
“世界级跨海集群工程”深中通道历经 7 年建设今日通过交工验收,本月底开通运营
下一篇
“世界级跨海集群工程”深中通道历经 7 年建设今日通过交工验收,本月底开通运营
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    16次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    13次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    12次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    16次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    17次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码