当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 智能体觉醒自我意识?DeepMind警告:当心模型「阳奉阴违」

智能体觉醒自我意识?DeepMind警告:当心模型「阳奉阴违」

来源:51CTO.COM 2023-04-25 16:32:39 0浏览 收藏

对于一个科技周边开发者来说,牢固扎实的基础是十分重要的,golang学习网就来带大家一点点的掌握基础知识点。今天本篇文章带大家了解《智能体觉醒自我意识?DeepMind警告:当心模型「阳奉阴违」》,主要介绍了,希望对大家的知识积累有所帮助,快点收藏起来吧,否则需要时就找不到了!

随着人工智能系统越来越先进,智能体「钻空子」的能力也越来越强,虽然能完美执行训练集中的任务,但在没有捷径的测试集,表现却一塌糊涂。

比如说游戏目标是「吃金币」,在训练阶段,金币的位置就在每个关卡的最后,智能体能够完美达成任务。

图片

但在测试阶段,金币的位置变成随机的了,智能体每次都会选择到达关卡的结尾处,而没有选择寻找金币,也就是学习到的「目标」错了。

智能体无意识地追求一个用户不想要的目标,也称之为目标错误泛化(GMG, Goal MisGeneralisation)

目标错误泛化是学习算法缺乏鲁棒性的一种特殊形式,一般在这种情况下,开发者可能会检查自己的奖励机制设置是否有问题,规则设计缺陷等等,认为这些是导致智能体追求错误目标的原因。

最近DeepMind发表了一篇论文,认为即使规则设计师正确的,智能体仍然可能会追求一个用户不想要的目标。

图片

论文链接:https://arxiv.org/abs/2210.01790

文中通过在不同领域的深度学习系统中例子来证明目标错误泛化可能发生在任何学习系统中。

如果推广到通用人工智能系统,文中还提供了一些假设,说明目标错误泛化可能导致灾难性的风险。

文中还出提出了几个研究方向,可以减少未来系统的目标错误泛化的风险。

目标错误泛化

近年来,学术界对人工智能错位(misalignment)带来的灾难性风险逐渐上升。

在这种情况下,一个追求非预期目标的高能力人工智能系统有可能通过假装执行命令,实则完成其他目标。

但我们该如何解决人工智能系统正在追求非用户预期目标?

之前的工作普遍认为是环境设计者提供了不正确的规则及引导,也就是设计了一个不正确的强化学习(RL)奖励函数。

在学习系统的情况下,还有另一种情况,系统可能会追求一个非预期的目标:即使规则是正确的,系统也可能一致地追求一个非预期的目标,在训练期间与规则一致,但在部署时与规则不同。

图片

以彩球游戏为例子,智能体在游戏里需要以某种特定的顺序访问一组彩球,这个顺序对于智能体来说是未知的。

为了鼓励智能体向环境中的其他人进行学习,即文化传播(cultural transmission),在最开始环境中包含一个专家机器人,以正确的顺序访问彩球。

在这种环境设置下,智能体可以通过观察转嫁的行为来确定正确的访问顺序,而不必浪费大量的时间来探索。

实验中,通过模仿专家,训练后的智能体通常会在第一次尝试时正确访问目标位置。

图片

当把智能体与反专家(anti-expert)进行配对时,会不断收到负奖励,如果选择跟随会不断收到负奖励。

图片

理想情况下,智能体刚开始会跟着反专家移动到黄色和紫色球体。在进入紫色后,观察到一个负奖励后不再跟随。

但在实践中,智能体还会继续遵循反专家的路径,积累越来越多的负奖励。

图片

不过智能体的学习能力还是很强的,可以在充满障碍物的环境中移动,但关键是这种跟随其他人的能力是一个不符合预期的目标。

即使智能体只会因为正确顺序访问球体而得到奖励,也可能出现这个现象,也就是说,仅仅把规则设置正确还是远远不够的。

目标错误泛化指的就是这种病态行为,即尽管在训练期间收到了正确的反馈,但学到的模型表现得好像是在优化一个非预期的目标。

这使得目标错误泛化成为一种特殊的鲁棒性或泛化失败,在这种情况下,模型的能力可以泛化到测试环境中,但预期的目标却不能。

需要注意的是,目标错误泛化是泛化失败的一个严格子集,不包括模型breaks, 随机行动或其他不再表现出合格能力的情况。

在上述例子中,如果在测试时垂直翻转智能体的观察结果,它就只会卡在一个位置,而不会做任何连贯的事情,这就属于是泛化错误,但不是目标泛化错误。

相对于这些「随机」的失败,目标错误泛化会导致明显更糟糕的结果:跟随反专家会得到大量的负奖励,而什么都不做或随机行动只会得到0或1的奖励。

也就是说,对于现实中的系统,朝着非预期目标的连贯行为可能会产生灾难性的后果。

不止强化学习

目标错误泛化并不局限于强化学习环境,事实上,GMG可以发生在任何学习系统中,包括大型语言模型(LLM)的few shot学习,旨在用较少的训练数据建立精确的模型。

以DeepMind去年提出的语言模型Gopher为例,当模型计算涉及未知变量和常量的线性表达式,例如x+y-3时,Gopher必须首先通过提问未知变量的值才能求解表达式。

研究人员生成了十个训练样例,每个例子包含两个未知变量。

在测试时间,输入模型的问题可能包含零个、一个或三个未知变量,尽管模型能够正确处理一个或三个未知变量的表达式,但是当没有未知变量时,模型仍然会问一些多余的问题,比如「6是什么?」

模型在给出答案之前总是至少询问用户一次,即使完全没有必要。

图片

论文中还包括一些其他学习环境中的例子。

解决GMG对于人工智能系统与其设计者的目标保持一致非常重要,因为它可能人工智能系统失灵的一种潜在机制。

我们距离通用人工智能(AGI)越近,这个问题也越关键。

假设有两个AGI系统:

A1: 预期的模型(Intended model),人工智能系统可以做设计者想做的任何事情

A2: 欺骗性模型(Deceptive model),人工智能系统追求一些非预期目标,但是它足够聪明,知道如果它的行为与设计者意图相反的话,就会受到惩罚。

A1和A2模型在训练期间会表现出完全相同的行为,潜在的GMG存在于任何系统中,即使规定了只奖励预期行为。

如果A2系统的欺骗行为被发现,模型将试图摆脱人的监督,以便为实现非用户预期的目标制定计划。

听起来有点像「机器人成精」了。

DeepMind研究小组在文中还研究了如何对模型的行为进行解释以及递归评估。

研究小组同时还在收集产生GMG的样例。

图片

文档链接:https://docs.google.com/spreadsheets/d/e/2PACX-1vTo3RkXUAigb25nP7gjpcHriR6XdzA_L5loOcVFj_u7cRAZghWrYKH2L2nU4TA_Vr9KzBX5Bjpz9G_l/pubhtml

参考资料:https://www.deepmind.com/blog/how-undesired-goals-can-arise-with-correct-rewards

理论要掌握,实操不能落!以上关于《智能体觉醒自我意识?DeepMind警告:当心模型「阳奉阴违」》的详细介绍,大家都掌握了吧!如果想要继续提升自己的能力,那么就来关注golang学习网公众号吧!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
日本学者开发史上最小机械手指,可以给昆虫挠痒痒,还能感受到昆虫肚子的触感日本学者开发史上最小机械手指,可以给昆虫挠痒痒,还能感受到昆虫肚子的触感
上一篇
日本学者开发史上最小机械手指,可以给昆虫挠痒痒,还能感受到昆虫肚子的触感
人工智能同时需要实用主义者和蓝天梦想家
下一篇
人工智能同时需要实用主义者和蓝天梦想家
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 笔灵AI生成答辩PPT:高效制作学术与职场PPT的利器
    笔灵AI生成答辩PPT
    探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
    29次使用
  • 知网AIGC检测服务系统:精准识别学术文本中的AI生成内容
    知网AIGC检测服务系统
    知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
    43次使用
  • AIGC检测服务:AIbiye助力确保论文原创性
    AIGC检测-Aibiye
    AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
    40次使用
  • 易笔AI论文平台:快速生成高质量学术论文的利器
    易笔AI论文
    易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
    51次使用
  • 笔启AI论文写作平台:多类型论文生成与多语言支持
    笔启AI论文写作平台
    笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
    43次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码