当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 智能体觉醒自我意识？DeepMind警告：当心模型「阳奉阴违」

智能体觉醒自我意识？DeepMind警告：当心模型「阳奉阴违」

来源：51CTO.COM 2023-04-25 16:32:39 0浏览收藏

对于一个科技周边开发者来说，牢固扎实的基础是十分重要的，golang学习网就来带大家一点点的掌握基础知识点。今天本篇文章带大家了解《智能体觉醒自我意识？DeepMind警告：当心模型「阳奉阴违」》，主要介绍了，希望对大家的知识积累有所帮助，快点收藏起来吧，否则需要时就找不到了！

随着人工智能系统越来越先进，智能体「钻空子」的能力也越来越强，虽然能完美执行训练集中的任务，但在没有捷径的测试集，表现却一塌糊涂。

比如说游戏目标是「吃金币」，在训练阶段，金币的位置就在每个关卡的最后，智能体能够完美达成任务。

但在测试阶段，金币的位置变成随机的了，智能体每次都会选择到达关卡的结尾处，而没有选择寻找金币，也就是学习到的「目标」错了。

智能体无意识地追求一个用户不想要的目标，也称之为目标错误泛化（GMG, Goal MisGeneralisation）

目标错误泛化是学习算法缺乏鲁棒性的一种特殊形式，一般在这种情况下，开发者可能会检查自己的奖励机制设置是否有问题，规则设计缺陷等等，认为这些是导致智能体追求错误目标的原因。

最近DeepMind发表了一篇论文，认为即使规则设计师正确的，智能体仍然可能会追求一个用户不想要的目标。

论文链接：https://arxiv.org/abs/2210.01790

文中通过在不同领域的深度学习系统中例子来证明目标错误泛化可能发生在任何学习系统中。

如果推广到通用人工智能系统，文中还提供了一些假设，说明目标错误泛化可能导致灾难性的风险。

文中还出提出了几个研究方向，可以减少未来系统的目标错误泛化的风险。

目标错误泛化

近年来，学术界对人工智能错位（misalignment）带来的灾难性风险逐渐上升。

在这种情况下，一个追求非预期目标的高能力人工智能系统有可能通过假装执行命令，实则完成其他目标。

但我们该如何解决人工智能系统正在追求非用户预期目标？

之前的工作普遍认为是环境设计者提供了不正确的规则及引导，也就是设计了一个不正确的强化学习（RL）奖励函数。

在学习系统的情况下，还有另一种情况，系统可能会追求一个非预期的目标：即使规则是正确的，系统也可能一致地追求一个非预期的目标，在训练期间与规则一致，但在部署时与规则不同。

以彩球游戏为例子，智能体在游戏里需要以某种特定的顺序访问一组彩球，这个顺序对于智能体来说是未知的。

为了鼓励智能体向环境中的其他人进行学习，即文化传播（cultural transmission），在最开始环境中包含一个专家机器人，以正确的顺序访问彩球。

在这种环境设置下，智能体可以通过观察转嫁的行为来确定正确的访问顺序，而不必浪费大量的时间来探索。

实验中，通过模仿专家，训练后的智能体通常会在第一次尝试时正确访问目标位置。

当把智能体与反专家（anti-expert）进行配对时，会不断收到负奖励，如果选择跟随会不断收到负奖励。

理想情况下，智能体刚开始会跟着反专家移动到黄色和紫色球体。在进入紫色后，观察到一个负奖励后不再跟随。

但在实践中，智能体还会继续遵循反专家的路径，积累越来越多的负奖励。

不过智能体的学习能力还是很强的，可以在充满障碍物的环境中移动，但关键是这种跟随其他人的能力是一个不符合预期的目标。

即使智能体只会因为正确顺序访问球体而得到奖励，也可能出现这个现象，也就是说，仅仅把规则设置正确还是远远不够的。

目标错误泛化指的就是这种病态行为，即尽管在训练期间收到了正确的反馈，但学到的模型表现得好像是在优化一个非预期的目标。

这使得目标错误泛化成为一种特殊的鲁棒性或泛化失败，在这种情况下，模型的能力可以泛化到测试环境中，但预期的目标却不能。

需要注意的是，目标错误泛化是泛化失败的一个严格子集，不包括模型breaks, 随机行动或其他不再表现出合格能力的情况。

在上述例子中，如果在测试时垂直翻转智能体的观察结果，它就只会卡在一个位置，而不会做任何连贯的事情，这就属于是泛化错误，但不是目标泛化错误。

相对于这些「随机」的失败，目标错误泛化会导致明显更糟糕的结果：跟随反专家会得到大量的负奖励，而什么都不做或随机行动只会得到0或1的奖励。

也就是说，对于现实中的系统，朝着非预期目标的连贯行为可能会产生灾难性的后果。

不止强化学习

目标错误泛化并不局限于强化学习环境，事实上，GMG可以发生在任何学习系统中，包括大型语言模型(LLM)的few shot学习，旨在用较少的训练数据建立精确的模型。

以DeepMind去年提出的语言模型Gopher为例，当模型计算涉及未知变量和常量的线性表达式，例如x+y-3时，Gopher必须首先通过提问未知变量的值才能求解表达式。

研究人员生成了十个训练样例，每个例子包含两个未知变量。

在测试时间，输入模型的问题可能包含零个、一个或三个未知变量，尽管模型能够正确处理一个或三个未知变量的表达式，但是当没有未知变量时，模型仍然会问一些多余的问题，比如「6是什么？」

模型在给出答案之前总是至少询问用户一次，即使完全没有必要。

论文中还包括一些其他学习环境中的例子。

解决GMG对于人工智能系统与其设计者的目标保持一致非常重要，因为它可能人工智能系统失灵的一种潜在机制。

我们距离通用人工智能（AGI）越近，这个问题也越关键。

假设有两个AGI系统：

A1: 预期的模型（Intended model），人工智能系统可以做设计者想做的任何事情

A2: 欺骗性模型（Deceptive model），人工智能系统追求一些非预期目标，但是它足够聪明，知道如果它的行为与设计者意图相反的话，就会受到惩罚。

A1和A2模型在训练期间会表现出完全相同的行为，潜在的GMG存在于任何系统中，即使规定了只奖励预期行为。

如果A2系统的欺骗行为被发现，模型将试图摆脱人的监督，以便为实现非用户预期的目标制定计划。

听起来有点像「机器人成精」了。

DeepMind研究小组在文中还研究了如何对模型的行为进行解释以及递归评估。

研究小组同时还在收集产生GMG的样例。

文档链接：https://docs.google.com/spreadsheets/d/e/2PACX-1vTo3RkXUAigb25nP7gjpcHriR6XdzA_L5loOcVFj_u7cRAZghWrYKH2L2nU4TA_Vr9KzBX5Bjpz9G_l/pubhtml

参考资料：https://www.deepmind.com/blog/how-undesired-goals-can-arise-with-correct-rewards

理论要掌握，实操不能落！以上关于《智能体觉醒自我意识？DeepMind警告：当心模型「阳奉阴违」》的详细介绍，大家都掌握了吧！如果想要继续提升自己的能力，那么就来关注golang学习网公众号吧！

智能体自我意识

版本声明

本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除

日本学者开发史上最小机械手指，可以给昆虫挠痒痒，还能感受到昆虫肚子的触感

日本学者开发史上最小机械手指，可以给昆虫挠痒痒，还能感受到昆虫肚子的触感

上一篇: 日本学者开发史上最小机械手指，可以给昆虫挠痒痒，还能感受到昆虫肚子的触感

人工智能同时需要实用主义者和蓝天梦想家

下一篇: 人工智能同时需要实用主义者和蓝天梦想家

查看更多

最新文章

科技周边 · 人工智能 | 1天前 | 人工智能 · tracing · ai agent · 可观测性 · 工具调用 · 可观测性 AI Agent Tracing 工具调用 OpenAI Agents SDK

AI Agent Tracing 实战：工具调用、护栏和人工确认怎么追踪

292浏览收藏
科技周边 · 人工智能 | 1天前 | 人工智能 · ai agent · 工具调用 · 权限治理 · 人工智能审计日志 AI Agent 权限分级工具调用人工确认

AI Agent 工具权限分级实战：读、写、发布三类操作怎么管

379浏览收藏
科技周边 · 人工智能 | 2天前 | 人工智能 · AI应用 · 结构化输出 · 内容质检 · 提示词工程 · AI 提示词结构化输出 JSON Schema 质检流水线人工兜底

AI 输出质检流水线实战：规则检查、结构化结果和人工兜底

394浏览收藏
科技周边 · 人工智能 | 2天前 | 人工智能 · rag · 知识库 · 工程实践 · 向量检索 · 元数据 RAG embedding 向量检索 AI知识库文档分块

AI 知识库分块实战：按标题层级切文档，减少回答跑偏

101浏览收藏
科技周边 · 人工智能 | 2天前 | 人工智能 · AI应用 · 工程实践 · 工具调用 · 人工智能智能体参数校验 AI工具调用 JSON Schema

AI 工具调用落地实战：JSON Schema、参数校验和人工兜底

233浏览收藏
科技周边 · 人工智能 | 2天前 | 人工智能 · rag · AI应用 · 向量数据库 · RAG embedding 向量检索重排序召回评估

RAG 召回评估实战：用向量检索和重排序减少答非所问

174浏览收藏
科技周边 · 人工智能 | 1星期前 | AI绘画

AI绘画工具安装与配置教程

339浏览收藏
科技周边 · 人工智能 | 1星期前 |

海螺AI语音功能测评与体验分享

260浏览收藏
科技周边 · 人工智能 | 1星期前 |

ChatGPT读不了加密PDF？先解密再上传

438浏览收藏
科技周边 · 人工智能 | 1星期前 |

千问AI测试规范与覆盖率提升技巧

152浏览收藏
科技周边 · 人工智能 | 1星期前 |

MiniMaxMusic2.0专业模式上线：音乐创作新神器

232浏览收藏
科技周边 · 人工智能 | 1星期前 |

即梦AI音乐可视化效果评测

280浏览收藏

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

ChatExcel酷表

ChatExcel酷表是由北京大学团队打造的Excel聊天机器人，用自然语言操控表格，简化数据处理，告别繁琐操作，提升工作效率！适用于学生、上班族及政府人员。

8609次使用
Any绘本

探索Any绘本（anypicturebook.com/zh），一款开源免费的AI绘本创作工具，基于Google Gemini与Flux AI模型，让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景，零门槛，高自由度，技术透明，本地可控。

9029次使用
可赞AI

可赞AI，AI驱动的办公可视化智能工具，助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析，还是一键生成专业图表、脑图、知识卡片，可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景，大幅提升办公效率，降低专业门槛，是您提升工作效率的得力助手。

8853次使用
星月写作

星月写作是国内首款聚焦中文网络小说创作的AI辅助工具，解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配，助力新人快速上手，资深作者效率倍增。

10755次使用
MagicLight

MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台，专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型，保障角色、风格、场景高度一致性，让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销，助您轻松实现创意落地与商业化。

9693次使用

查看更多

相关文章

GPT-4王者加冕！读图做题性能炸天，凭自己就能考上斯坦福

2023-04-25 501浏览
单块V100训练模型提速72倍！尤洋团队新成果获AAAI 2023杰出论文奖

2023-04-24 501浏览
ChatGPT 真的会接管世界吗？

2023-04-13 501浏览
VR的终极形态是「假眼」？Neuralink前联合创始人掏出新产品：科学之眼！

2023-04-30 501浏览
实现实时制造可视性优势有哪些？

2023-04-15 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码