当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 南大俞扬探讨:什么是「世界观」?

南大俞扬探讨:什么是「世界观」?

来源:51CTO.COM 2024-03-08 11:57:12 0浏览 收藏

你在学习科技周边相关的知识吗?本文《南大俞扬探讨:什么是「世界观」?》,主要介绍的内容就涉及到,如果你想提升自己的开发能力,就不要错过这篇文章,大家要知道编程理论基础和实战操作都是不可或缺的哦!

随着媒体狂炒Sora,OpenAI的介绍材料中称Sora是「world simulator」,世界模型这个词又进入视野,但很少有文章来介绍世界模型。

这里回顾一下什么是世界模型,以及讨论Sora是不是world simulator。

什么是world models/世界模型

当AI领域中讲到世界/world、环境/environment这个词的时候,通常是为了与智能体/agent加以区分。

研究智能体最多的领域,一个是强化学习,一个是机器人领域。

因此可以看到,world models、world modeling最早也最常出现在机器人领域的论文中。

而今天world models这个词影响最大的,可能是Jurgen 2018年放到arxiv的这篇以「world models」命名的文章,该文章最终以 「Recurrent World Models Facilitate Policy Evolution」的title发表在NeurIPS‘18。

南大俞扬深度解读:什么是「世界模型」?

该论文中并没有定义什么是World models,而是类比了认知科学中人脑的mental model,引用了1971年的文献。

南大俞扬深度解读:什么是「世界模型」?

mental model是人脑对周边世界的镜像

Wikipedia中介绍的mental model,很明确的指出其可能参与认知、推理、决策过程。并且说到mental model主要包含mental representations和mental simulation两部分。

an internal representation of external reality, hypothesized to play a major role in cognition, reasoning and decision-making. The term was coined by Kenneth Craik in 1943 who suggested that the mind constructs "small-scale models" of reality that it uses to anticipate events.

到这里还是说得云雾缭绕,那么论文中的结构图一目了然的说明了什么是一个world model。

南大俞扬深度解读:什么是「世界模型」?

图中纵向V->z是观测的低维表征,用VAE实现,水平的M->h->M->h是序列的预测下一个时刻的表征,用RNN实现,这两部分加起来就是World Model。

也就是说,World model的主要包含状态表征和转移模型,这也正好对应mental representations和mental simulation。

看到上面这张图可能会想,这不是所有的序列预测都是world model了?

其实熟悉强化学习的同学能一眼看出来,这张图的结构是错误(不完整)的,而真正的结构是下面这张图,RNN的输入不仅是z,还有动作action,这就不是通常的序列预测了(加一个动作会很不一样吗?是的,加入动作可以让数据分布自由变化,带来巨大的挑战)。

南大俞扬深度解读:什么是「世界模型」?

Jurgen的这篇论文属于强化学习领域。

那么,强化学习里不是有很多model-based RL吗,其中的model跟world model有什么区别?答案是没有区别,就是同一个东西。Jurgen先说了一段

南大俞扬深度解读:什么是「世界模型」?

基本意思就是,不管有多少model-based RL工作,我是RNN先驱,RNN来做model是我发明的,我就是要搞。

在Jurgen文章的早期版本中,还说到很多model-based RL,虽然学了model,但并没有完全在model中训练RL。

南大俞扬深度解读:什么是「世界模型」?

没有完全在model中训练RL,实际上并不是model-based RL的model有什么区别,而是model-based RL这个方向长久以来的无奈:model不够准确,完全在model里训练的RL效果很差。这一问题直到近几年才得到解决。

聪明的Sutton在很久以前就意识到model不够准确的问题。在1990年提出Dyna框架的论文Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming(发表在第一次从workshop变成conference的ICML上),管这个model叫action model,强调预测action执行的结果。

RL一边从真实数据中学习(第3行),一边从model中学习(第5行),以防model不准确造成策略学不好。

南大俞扬深度解读:什么是「世界模型」?

可以看到,world model对于决策十分重要。如果能获得准确的world model,那就可以通过在world model中就反复试错,找到现实最优决策。

这就是world model的核心作用:反事实推理/Counterfactual reasoning , 也就是说,即便对于数据中没有见过的决策,在world model中都能推理出决策的结果。

了解因果推理的同学会很熟悉反事实推理这个词,在图灵奖得主Judea Pearl的科普读物The book of why中绘制了一副因果阶梯,最下层是「关联」,也就是今天大部分预测模型主要在做的事;中间层是「干预」,强化学习中的探索就是典型的干预;最上层是反事实,通过想象回答what if问题。Judea为反事实推理绘制的示意图,是科学家在大脑中想象,这与Jurgen在论文中用的示意图异曲同工。

南大俞扬深度解读:什么是「世界模型」?

左:Jurgen论文中的世界模型示意图。右:Judea书中的因果阶梯。

到这里我们可以总结,AI研究人员对world model的追求,是试图超越数据,进行反事实推理,回答what if问题能力的追求。这是一种人类天然具备,而当前的AI还做得很差的能力。一旦产生突破,AI决策能力会大幅提升,实现全自动驾驶等场景应用。

Sora是不是world simulator

simulator这个词更多出现在工程领域,起作用与world model一样,尝试那些难以在现实世界实施的高成本高风险试错。OpenAI似乎希望重新组成一个词组,但意思不变。

Sora生成的视频,仅能通过模糊的提示词引导,而难以进行准确的操控。因此它更多的是视频工具,而难以作为反事实推理的工具去准确的回答what if问题。

甚至难以评价Sora的生成能力有多强,因为完全不清楚demo的视频与训练数据的差异有多大。

更让人失望的是,这些demo呈现出Sora并没有准确的学到物理规律。已经看到有人指出了Sora生成视频中不符合物理规律之处 [ OpenAI 发布文生视频模型 Sora,AI 能理解运动中的物理世界,这是世界模型吗?意味着什么? ]

我猜测OpenAI放出这些demo,应该基于非常充足的训练数据,甚至包括CG生成的数据。然而即便如此那些用几个变量的方程就能描述的物理规律还是没有掌握。

OpenAI认为Sora证明了一条通往simulators of the physical world的路线,但看起来简单的堆砌数据并不是通向更高级智能技术的道路。

终于介绍完啦!小伙伴们,这篇关于《南大俞扬探讨:什么是「世界观」?》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布科技周边相关知识,快来关注吧!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
比较Oracle中Blob和Clob的存储原理及适用场景比较Oracle中Blob和Clob的存储原理及适用场景
上一篇
比较Oracle中Blob和Clob的存储原理及适用场景
在golang中如何将*PrivateKey类型的变量存储到文件中?
下一篇
在golang中如何将*PrivateKey类型的变量存储到文件中?
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    543次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    516次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    500次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    485次学习
查看更多
AI推荐
  • ChatExcel酷表:告别Excel难题,北大团队AI助手助您轻松处理数据
    ChatExcel酷表
    ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
    3187次使用
  • Any绘本:开源免费AI绘本创作工具深度解析
    Any绘本
    探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
    3399次使用
  • 可赞AI:AI驱动办公可视化智能工具,一键高效生成文档图表脑图
    可赞AI
    可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
    3430次使用
  • 星月写作:AI网文创作神器,助力爆款小说速成
    星月写作
    星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
    4536次使用
  • MagicLight.ai:叙事驱动AI动画视频创作平台 | 高效生成专业级故事动画
    MagicLight
    MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
    3808次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码