争取盟友、洞察人心,最新的Meta智能体是个谈判高手
知识点掌握了,还需要不断练习才能熟练运用。下面golang学习网给大家带来一个科技周边开发实战,手把手教大家学习《争取盟友、洞察人心,最新的Meta智能体是个谈判高手》,在实现功能的过程中也带大家重新温习相关知识点,温故而知新,回头看看说不定又有不一样的感悟!
长期以来,游戏一直是 AI 进步的试验场——从深蓝战胜国际象棋大师 Garry Kasparov,到 AlphaGo 对围棋的精通程度超越人类,再到 Pluribus 在扑克比赛中击败最厉害的玩家。但真正有用的、全能的智能体不能仅仅只会完棋盘游戏、移动移动棋子。有人不禁会问:我们能否建立一个更有效、更灵活的智能体,使其能够像人类一样使用语言进行谈判、说服并与人合作,以实现战略目标?
在游戏的历史上,存在一款经典的桌面游戏 Diplomacy,很多人在第一次看到该游戏时,都会被它地图式的棋盘吓一跳。以为它是一个复杂的战争游戏。其实不然,这是一款需要调动语言争取盟友的游戏,迁涉到决策与谈判协商,玩者之间有大量的交流,赢得游戏的关键在人与人之间的互动。
现在 Meta 向这一游戏发起了挑战,他们构建的智能体 CICERO,成为首个在 Diplomacy 中达到人类水平的 AI。CICERO 通过在在线版本 webDiplomacy.net 上证明了这一点,其中 CICERO 的平均得分是人类玩家的两倍多,并且在玩过不止一场游戏的参与者中排名前 10%。
- 论文地址:https://www.science.org/doi/10.1126/science.ade9097
- 主页地址:https://ai.facebook.com/research/cicero/diplomacy/
几十年来,Diplomacy 一直被视为 AI 领域中不可逾越的巨大挑战,因为这款游戏要求玩家理解他人的动机和观点,需要制定复杂计划,调整策略,并在此基础上使用自然语言与他人达成协议,说服别人结成伙伴关系和联盟等。这些对智能体来说还是比较困难的,而 CICERO 在使用自然语言与 Diplomacy 玩家进行谈判方面还是非常有效的。
与国际象棋和围棋不同的是,Diplomacy 是一款关于人而不是棋子的游戏。如果智能体无法识别对手是在虚张声势,还是真正的发起破坏,它就会很快输掉比赛。同样,如果智能体不能像人一样交流,表现出同理心,与别人建立关系,对游戏侃侃侃谈——它就找不到其他愿意与它合作的玩家。
Meta 的这项研究将战略推理(如 AlphaGo、Pluribus)与自然语言处理( 例如 GPT-3、 BlenderBot 3、LaMDA、OPT-175B)进行了结合。例如,在游戏后期,CICERO 推断出它将需要一个特定玩家的支持,然后 CICERO 会制定一个策略来赢得这个人的青睐。
如何构建 CICERO
CICERO 的核心是一个可控的对话模型和一个战略推理引擎。在游戏的每一点,CICERO 都会查看 game board 及其对话历史,并对其他玩家可能采取的行动进行建模。然后制定计划来控制语言模型,将它的计划告知其他玩家,并为与他们协调良好的其他玩家提出合理的行动建议。
可控对话
为了构建一个可控对话模型,Meta 从一个具有 27 亿参数的类 BART 语言模型开始,并在来自互联网的文本上进行了预训练,还在 webDiplomacy.net 上对 40000 多个人类游戏进行了微调。
实现过程主要分为以下几步:
Step 1:根据 board state 和当前对话,CICERO 对每个人将做出什么给出初步预测。
Step 2:CICERO 迭代地改进初步预测,然后使用改进预测为自己和合作伙伴形成一个意图。
Step 3:根据 board state、对话和意图生成多条候选消息。
Step 4:过滤候选消息,最大化值,并确保彼此之间的意图一致。
研究者利用一些过滤机制进一步提高对话质量,比如用训练过的分类器来区分人类和模型生成的文本以确保——对话是合理的,与当前游戏状态和以前的信息一致,并且在战略上是合理的。
对话意识战略和规划
在涉及合作的游戏中,智能体需要学会模拟人类在现实生活中实际会做什么,而不是将人类看作机器,让智能体指挥他们应该做什么。因此,Meta 希望 CICERO 制定的计划与其他参与者的对话保持一致。
人类建模的经典方法是监督学习,即用标记的数据(如过去游戏中人类玩家的行动数据库)来训练智能体。然而,纯粹依靠监督学习来选择基于过去对话的行动,会导致智能体相对较弱,而且很容易被利用。例如,一个玩家可以告诉智能体「我很高兴我们同意你将把你的部队从巴黎移走!」由于类似的信息只有在达成协议时才会出现在训练数据中,因此智能体可能真的会将其部队调离巴黎,即使这样做是一个明显的战略失误。
为了解决这个问题,CICERO 运行一个迭代规划算法,以平衡对话的一致性和合理性。智能体首先根据它与其他玩家的对话预测每个人在当前回合的策略,同时也预测其他玩家认为智能体的策略将会是什么。然后,它将运行名为「piKL」的规划算法,该算法通过尝试选择在其他玩家预测的策略下具有更高期望值的新策略,来迭代改进这些预测,同时也尝试使新的预测接近于原始策略预测。研究者发现,与单纯的监督学习相比,piKL 能更好地模拟人类游戏,并为智能体带来更好的策略。
生成自然的、目的型的对话
在 Diplomacy 中,玩家如何与他人交谈甚至比他们如何移动棋子更重要。CICERO 在与其他玩家制定战略时,能够清楚地、有说服力地交流。例如,在一个 demo 中,CICERO 要求一个玩家立即在棋盘的某个部分提供支持,同时向另一个玩家施加压力让其在游戏的后期考虑结盟。
交流中,CICERO 试图通过向三个不同的玩家提出行动建议来执行其战略。在第二次对话中,智能体能够告诉其他玩家为什么他们应该合作,以及它将如何对双方有利。在第三次对话中,CICERO 既在征求信息,也在为未来的行动打下基础。
不足之处
必须承认,CICERO 有时也会产生不一致的对话,从而破坏其目标。在下面的例子中,CICERO 扮演的是奥地利,但智能体要求意大利转移到威尼斯,与它的第一个信息相矛盾。
让「Diplomacy」推进人类与 AI 互动的沙盒
在一个既涉及合作又涉及竞争的游戏中,出现了以目标为导向的对话系统,对于使 AI 与人类的意图和目标相一致方面,这提出了重要的社会和技术挑战。「Diplomacy」为研究这个问题提供了一个特别有趣的环境,因为玩这个游戏需要与冲突的目标搏斗,并将这些复杂的目标转化为自然语言。举个简单的例子,玩家可能会选择在短期利益上做出妥协来维持和一个盟友的关系,因为这个盟友有可能在下一回合帮助他们进入一个更好的位置。
虽然 Meta 在这项工作中取得了重大进展,但将语言模型与具体意图有力地结合起来的能力,以及决定这些意图的技术(和规范)挑战仍然是重要的问题。通过开源 CICERO 代码,Meta 希望 AI 研究人员能够以负责任的方式继续在这一工作基础上发展。团队表示:「通过使用对话模型进行零样本分类,我们已经在这个新领域中迈出了检测和删除有害信息的早期步骤。我们希望「Diplomacy」可以作为一个安全的沙盒来推进人与 AI 互动的研究。」
未来方向
虽然目前 CICERO 只能够玩 Diplomacy 游戏,但这一成就背后的技术与许多现实世界的应用有关。例如,通过规划和 RL 控制自然语言的生成,可以缓解人类和 AI 驱动的智能体之间的沟通障碍。
例如,今天的人工智能助手擅长回答简单的问题,比如告诉你天气,但如果他们能保持长期的对话,以教你一个新技能为目标呢?
另外,想象一个视频游戏,其中 NPC 可以像人一样计划和交谈—理解你的动机并相应地调整对话,帮助你完成攻打城堡的任务。
这些「梦想」,未来或许都能走进现实。
好了,本文到此结束,带大家了解了《争取盟友、洞察人心,最新的Meta智能体是个谈判高手》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多科技周边知识!

- 上一篇
- 语音助手好吗?好,但还不够好

- 下一篇
- 《时代》杂志重磅封面:元宇宙时代将改变世界
-
- 科技周边 · 人工智能 | 7小时前 |
- Linux服务器时间校对命令详解及应用
- 420浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 | 量子计算 营收 skywater 第一季度 ThermaView
- SkyWaterQ1营收6130万,强势新平台吸睛
- 293浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- 问界新M7牧野青发布颜值爆表24.98万起
- 416浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- 2024财年车企净利润榜:丰田居首,小米排15
- 426浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 | 开源 国产品牌 5G手机 电子信息制造业 软件及信息技术服务业
- 工信部数据:1-2月5G手机出货4161.9万,国产占85%
- 289浏览 收藏
-
- 科技周边 · 人工智能 | 14小时前 | 面板 lge
- LG东南亚工厂暂停,北美成新重心
- 487浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 毕业宝AIGC检测
- 毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
- 23次使用
-
- AI Make Song
- AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
- 33次使用
-
- SongGenerator
- 探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
- 30次使用
-
- BeArt AI换脸
- 探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
- 34次使用
-
- 协启动
- SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
- 36次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览