当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > AI Agents开源库全能功能:写小说、当导购、销售都能胜任

AI Agents开源库全能功能:写小说、当导购、销售都能胜任

来源:机器之心 2024-03-21 11:10:04 0浏览 收藏

AI Agents开源库Agents横空出世,为人工智能(AI)领域带来革命性突破。它将符号主义推理图与连接主义语言模型相结合,赋予AI智能体卓越的控制性和通用性。Agents框架提供细粒度控制,让用户可以通过推理图定义智能体任务,确保智能体严格按照流程运行,避免误差传播和任务失败。此外,Agents支持长短期记忆、工具使用、网络搜索和多智能体系统构建,让AI智能体能够执行复杂任务,如撰写小说、担任导购和销售。

近一年来,随着大模型突飞猛进的发展,基于大模型的推理泛化能力的语言智能体 (Language Agents) 展示了通向 AGI 的巨大潜力。科研和开发者社区也涌现出各种语言智能体的框架和系统,如 AutoGPT [1], LangChain [2], SuperAGI [3] 等。这些系统能够接受人类提供的简单的指令之后自主规划和执行任务。尽管看起来很炫酷,这些框架和系统的都存在一个非常致命的通病:智能体的运行一旦开始,就几乎脱离了人类的控制,对任务规划和执行一旦出错,就会通过误差传播引起明显的滚雪球效应,因此任务失败概率很高。除了失败率高以外,更致命的是用户或开发者遇到这种情况,对于如何调优很容易完全没有头绪,只能盲目更改任务描述,依靠玄学希望得到更好的效果。

功能超全的AI Agents开源库来了,能写小说,还能当导购、销售

                                               图 1 Agents 框架示意图

为了解决这一挑战,使LLM Agent更易于控制,简化和系统化LLM Agent的优化过程,波形智能与苏黎世联邦理工大学和浙江大学合作开发了一个名为Agents的开源智能体框架。

功能超全的AI Agents开源库来了,能写小说,还能当导购、销售

  • 论文链接:https://arxiv.org/pdf/2309.07870.pdf

  • 代码 / Demo 链接:https://github.com/aiwaves-cn/agents

  • 官方网站:http://www.aiwaves-agents.com/

Agents 框架探索了如何将基于推理图的符号主义和基于 LLM 的连接主义相结合,以整合高层次的世界模型知识和低层次的简单推理泛化能力,从而实现更智能、更可控的通用人工智能 (AGI) 方案。

具体来说,该框架创新性地提供了通过符号式的推理图,即 “SOP”,来对任务进行分解,首次实现了对 LLM Agent 的细粒度控制。框架同时支持长短期记忆,工具使用,网络搜索,以及多智能体系统的构建,用户只需要用自然语言填写配置文档,就能轻松定义各种功能和使用场景的 AI 智能体 / 多智能体系统,比如导购机器人,客服机器人,以及包含各种角色的小说工作室。

在支持零代码定制 / 微调多智能体系统的同时,Agents 框架也对开发者和研究者扩展新的功能和定制复杂的多智能体环境 / 场景提供了很好的支持,为基于语言的智能体 (Language Agents) 研究提供便利。Agents 框架的主要功能和亮点如下:

  • 长短期记忆:基于 RecurrentGPT [4] 的方案让自主智能体能够维持长短期记忆,从而更好地和人类 / 环境 / 其他智能体交互。长期记忆将智能体自己的以及观察到的对话 / 行为历史储存在向量数据库 (VectorDB) 中并根据当前的观察 (observation),通过语义搜索 (semantic search) 来选择性的激活储存的记忆。短期记忆则是以文字形式,通过 LLM+prompt 进行更新,负责智能体的 working memory。

  • 工具使用 / 网络搜索:该框架通过将各种工具 / API 封装在 "ToolComponent" 类中,统一定义接口,让智能体能够通过 OpenAI GPT 的 function-calling 来智能地使用各种工具。网络搜索功能也被封装成了 API,模型可以根据需求,通过 function-calling 自动生成搜索 query,获取搜索结果来辅助行动。

  • 多智能体系统: Agents 框架中同时支持单智能体和多智能体系统。其中多智能体系统区别于现有框架的一点是,不同于其他系统一般利用事先规定好的规则来决定智能体行动的先后顺序,Agents 库当中支持了基于 LLM 的控制器,可以根据当前状态的目标,智能体的行为,和当前环境,来决定是否进入下一个状态,以及确定下一个行动的智能体应该是谁。

  • 人 - 智能体交互: Agents 框架除了支持多智能体之间的相互交互,也支持了能够让人类使用者扮演多智能体系统中的一个或多个智能体的功能,可以方便地支持各种人 - 智能体交互的应用场景,如人和智能体一起玩游戏、辩论等。

  • 符号化细粒度控制:作为 Agents 框架的核心亮点,框架中的 SOP 系统支持了通过符号化的推理图来对智能体 / 多智能体系统提供更细粒度的控制。一个任务 / 场景的 SOP 是一个图结构,图中的每个节点被称作 "状态",每个状态定义了该任务场景的一个子任务或者中间过程。用户可以在 Agent 系统的设置模版 (config template) 中定义每个智能体在每个状态中的任务描述,策略,规则,和 in-context learning 的样例等。状态和状态之间的切换通过一个基于 LLM 的控制器来决定。基于 SOP 的细粒度的控制让智能体系统更能够严格按照人类确认过的流程运行,从而更加稳定,可控,进而达到可以作为商业化的客服 / 销售 / 导购等智能体的目标。另外因为智能体系统的控制严格按照 SOP 的流程,所以任何一步发生问题,用户都可以方便的定位到问题所在,并且有针对性地对 SOP 进行修改,提升系统的表现,既提高了 Agent 系统的可解释性,又方便了系统的编辑和调优。

功能超全的AI Agents开源库来了,能写小说,还能当导购、销售

                              图 2  Agents 框架和其他常见开源智能体系统框架的功能对比

Agents 框架介绍

Agents 框架包含三个主要类:Agent、SOP 和 Environment,具体如下:

  • Agent 类包含了 Agent 的各种功能,包括长短期记忆,观察环境,使用工具,调用 LLM 进行推理和生成回复等。

  • SOP 类是由状态和状态之间的连接定一个一个符号式的计划(Plan)。SOP 的每个状态节点由 State 类定义,State 类中涵盖了 Agent 在这个状态内特有模块化的 Prompt 和可以使用的各种工具 / API 等,由用户在配置文件中定义。每次行动时,Agent 会将这些模块化 prompt 和工具 / API 的输出组装成完整的 prompt,然后调用 LLM 决定如何行动。SOP 中还包括了一个控制器函数,利用大模型的推理能力来动态决定状态的转移和下一个行动的 Agent 是哪个。

  • Environment (环境类) 是智能体之间交互的媒介,储存了智能体之间的对话历史和环境本身的状态 / 变化等。

智能体系统的初始化代码如下:所有类均可由一个用户定制好的 config 文件加载。

功能超全的AI Agents开源库来了,能写小说,还能当导购、销售

加载之后多智能系统的运行逻辑如下:SOP 的控制器决定了下一个状态和行动的智能体是哪个,之后智能体结合环境和状态执行行动,最后环境根据智能体的行为进行自我更新。Agents 框架同时支持让智能体系统动态 Planning,生成新的后续状态和节点,只需要定义从 action 抽取新状态节点设置的函数并将对应的设置动态添加到当前的 SOP 中即可。

功能超全的AI Agents开源库来了,能写小说,还能当导购、销售

利用 Agents 框架定制多智能体系统的流程

Step 1:配置多智能体系统参数 (框架提供了相应的 WebUI)

功能超全的AI Agents开源库来了,能写小说,还能当导购、销售

Step 2: 得到 JSON 配置文件

功能超全的AI Agents开源库来了,能写小说,还能当导购、销售

Step 3:启动多智能体系统

功能超全的AI Agents开源库来了,能写小说,还能当导购、销售

基于 Agents 框架搭建的 “影视工作室” 系统

接下来,作者展示了一个利用 Agents 框架开发的多智能体影视工作室的 Demo。小说工作室中包括了作家,编辑,导演,和演员等角色。SOP 中规定了首先作家和编辑要根据特定的剧情设定来构思人设和剧本大纲,之后作家根据大纲写出剧本,再由导演根据剧本指导多个演员一起进行每一段情节的表演:

功能超全的AI Agents开源库来了,能写小说,还能当导购、销售

其他的多智能体框架在接受了这样一个复杂流程的指示之后,很容易会在执行任务的过程中逐渐偏离原始的任务规划和指示。这是因为在每一次执行的时候,各个智能体都只能根据总体的相对笼统的任务介绍来推测系统现在走到了哪一步以及接下来要做什么,而基于 Agents 框架的智能体系统则为每个智能体提供了当前状态特有的指令,规则,和示例,并且有了解全局任务和当前 / 下一个状态各自的目标的控制器来决定状态的转变,因此能够更准确、稳定地沿着预先设定的流程完成整个剧本设计,创作到表演的复杂任务流。

Agents 框架除了支持在终端和 Gradio 体验多智能体系统之外,还为开发者提供了利用 FastAPI 在后端部署自主智能体系统的示例代码,可以让开发者便捷的将调教好的智能体部署到应用程序中。另外 Agents 开发团队还提供了 community AgentHub,可供方便地供用户搜索他人共享的智能体系统从而更便捷地打造自己的智能体系统,也可以将自己调试好的智能体系统方便地共享给社区其他用户。

理论要掌握,实操不能落!以上关于《AI Agents开源库全能功能:写小说、当导购、销售都能胜任》的详细介绍,大家都掌握了吧!如果想要继续提升自己的能力,那么就来关注golang学习网公众号吧!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
谷歌推出全新通用AI智能体,改变了3D游戏的玩法谷歌推出全新通用AI智能体,改变了3D游戏的玩法
上一篇
谷歌推出全新通用AI智能体,改变了3D游戏的玩法
为什么这个goroutine的行为类似于使用引用传递?
下一篇
为什么这个goroutine的行为类似于使用引用传递?
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    26次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    21次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    23次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    22次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    24次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码