当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 数字世界:智能体开始玨玩「荒野大镖客 2」

数字世界:智能体开始玨玩「荒野大镖客 2」

来源:机器之心 2024-03-13 17:12:07 0浏览 收藏

今天golang学习网给大家带来了《数字世界:智能体开始玨玩「荒野大镖客 2」》,其中涉及到的知识点包括等等,无论你是小白还是老手,都适合看一看哦~有好的建议也欢迎大家在评论留言,若是看完有所收获,也希望大家能多多点赞支持呀!一起加油学习~

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

通用计算机控制

信息革命产生了数字世界,数字世界为大模型的诞生提供了数据,也最容易实现通用人工智能(AGI)。

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

向数字世界 AGI 迈进,北京智源人工智能研究院、新加坡南洋理工大学、北京大学携手提出通用计算机控制 General Computer Control (GCC),即智能体需要像人一样看屏幕,通过键盘、鼠标完成计算机上的所有任务。在过去很长一段时间里,人工智能研究以游戏为场景,而 GCC 将为通用人工智能研究提供场景,也将进一步促进大模型和 AI Agents 的落地与产业化。

为此,研究团队提出通用计算机控制智能体框架 Cradle,使智能体不依赖任何内部 API 直接控制键盘、鼠标和任何软件交互,无论开源还是闭源,甚至能玩《荒野大镖客 2》这样的商业 3A 游戏大作!

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

  • 论文标题:Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study
  • 论文链接:https://arxiv.org/abs/2403.03186
  • 项目主页:https://baai-agents.github.io/Cradle/
  • 代码链接:https://github.com/BAAI-Agents/Cradle

随着大模型的发展,越来越多的智能体(AI Agents)研究关注计算机控制,包括浏览网页、操作智能手机、玩游戏等。然而,已有研究依赖内部 API 获取输入,并输出预先定义好的动作。要构建能完成计算机上一切任务的通用智能体,必须使用最通用和最标准的输入输出与计算机进行交互。因此,通用计算机控制使用统一的输入和输出,从而让智能体的通用性变为可能。

但通用性带来了操作上的难度:(1)使用计算机屏幕作为输入对智能体的视频理解能力提出了更高的要求,例如由于没有内部 API,需要通过视觉信息判断动作是否执行成功;(2)使用键盘和鼠标操作作为输出使得智能体需要更高的时空操作精度,比如键盘按键和鼠标点击通常额外涉及时间维度。如何解决这些难题是构建通用计算机控制智能体 (GCC Agents) 的挑战!

Cradle:操控一切软件

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

「计算机指任何以用户为中心的计算设备,包括 PC、智能手机和平板电脑等。尽管 Cradle 着重于键盘和鼠标操作,但可以很容易扩展到控制手柄和触摸屏等」

通用计算机控制智能体框架 Cradle 主要由 6 个模块组成:信息收集、自我反思、任务推断、技能管理、行动计划以及记忆模块。Cradle 高度的通用性来源于其对和计算机交互过程中的原始输入输出的合理封装和抽象。以从屏幕中显示的视频作为输入,提取其中的文本和视觉信息进行决策,并且输出底层操作系统中控制键盘和鼠标的信号去和计算机交互,使得其可以不依赖于任何假设与所有软件进行交互。

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

「Cradle 主要由信息收集、自我反思、任务推断、技能管理、行动计划以及记忆模块等 6 个模块组成,其强大的决策推理来自于 “反思过去,总结现在,规划未来”」

同时 Cradle 强大的决策推理模块让其得以自发和软件进行交互并且完成任务,这个过程可以被简单地总结为:反思过去,总结现在,规划未来

  • 反思过去:使用执行过往动作过程的视频作为输入,分别提取出其中关键的文本和视觉信息,通过反思来判断上一步动作是否执行成功、任务是否完成以及如何改进。
  • 总结现在:反思完之后,总结当前情况,并且以此为依据来决定是否更换任务目标或是修改任务内容。
  • 规划未来:最后根据当前任务和现状生成或者更新技能,并且从已学会的技能中检索与当前任务相关的技能作为备选,然后从中选取合适的技能实例化为动作去执行。

在决策推理的同时,Cradle 会周期性地总结和维护储存在情境记忆中的历史信息以及储存在长期记忆中的技能。这一过程的大脑是多模态大模型,如 GPT-4V,但是 Cradle 为其添加了总结、反思以及记忆等功能,形成了完整的面向通用计算机控制的智能体框架,有效解决了通用性所带来的难题。

Cradle:带你从头开始探索《荒野大镖客 2》

为了证明框架的通用性和强大的决策能力,研究团队选择将 Cradle 部署到最为困难以及鲜有人探索的的商业 3A 游戏大作《荒野大镖客 2》。他们认为作为操作最为困难的软件,假如 Cradle 能够在 3A 游戏上自由探索甚至完成主线剧情,那么说明该框架有巨大潜力泛化到其他游戏和软件上。

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

「与 Minecraft 这样的开源游戏不同,大多数商业游戏特别是 3A 游戏并不提供内部 API 接口,使得类似 Voyager 这样的依赖内部 API 获取输入并输出预定义动作的框架无法迁移到其他游戏中」

以 GPT-4V 为基础,Cradle 能直接根据游戏内的提示和教程生成对应的可执行代码作为技能,一步步丰富自己的技能库, 并在之后的游戏中重复使用这些技能。

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

在执行了错误动作之后,Cradle 能够有效地通过反思来发现并且纠正错误。

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

Cradle 不仅能从头开始跟随游戏指引生成相应技能,完成长达 40 分钟时的主线剧情,还能在开放世界自由探索,骑马,打猎,战斗,与 NPC 对话,使用道具,操作地图,甚至商店购物,均不在话下。这是首个能长时间游玩商业 3A 游戏的智能体。

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

结束语

开源的 Cradle 代码可以很容易扩展到其他软件和游戏。研究团队表示,为了能够实现真正的通用计算机控制,后续 Cradle 还将移植到更多软件和游戏上,也鼓励相关研究团队 / 工业界开展进一步研究与探索。目标是让智能体可以与无论是开源还是闭源的所有软件进行交互并持续自我提升,实现通用性,最终成为通用人工智能诞生的摇篮。

"GCC is a cradle for AGI."        

 —The Cradle team

One more thing:Cradle 技术解读直播

3 月 14 日 14:30-15:30,论文一作新加坡南洋理工大学博士生谭伟豪进行线上解读报告。扫描下图二维码报名。

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

到这里,我们也就讲完了《数字世界:智能体开始玨玩「荒野大镖客 2」》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于产业,Cradle的知识点!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
PHP数组大小是否有限制?PHP数组大小是否有限制?
上一篇
PHP数组大小是否有限制?
深入探讨Golang中除法运算符的应用
下一篇
深入探讨Golang中除法运算符的应用
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 笔灵AI生成答辩PPT:高效制作学术与职场PPT的利器
    笔灵AI生成答辩PPT
    探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
    28次使用
  • 知网AIGC检测服务系统:精准识别学术文本中的AI生成内容
    知网AIGC检测服务系统
    知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
    42次使用
  • AIGC检测服务:AIbiye助力确保论文原创性
    AIGC检测-Aibiye
    AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
    39次使用
  • 易笔AI论文平台:快速生成高质量学术论文的利器
    易笔AI论文
    易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
    51次使用
  • 笔启AI论文写作平台:多类型论文生成与多语言支持
    笔启AI论文写作平台
    笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
    42次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码