用AI自动设计智能体,数学提分25.9%,远超手工设计
知识点掌握了,还需要不断练习才能熟练运用。下面golang学习网给大家带来一个科技周边开发实战,手把手教大家学习《用AI自动设计智能体,数学提分25.9%,远超手工设计》,在实现功能的过程中也带大家重新温习相关知识点,温故而知新,回头看看说不定又有不一样的感悟!
基于 ADAS 所发现的智能体的性能大大优于最先进的手工设计的基线。
基础模型 (FM) 如 GPT 和 Claude ,正在成为通用智能体的强有力支持,被越来越多的用于多种推理和规划任务。
然而,在解决问题时,需要的智能体通常是具有多个组件的复合智能体系统,而不是单片模型查询 。此外,为了使智能体能够解决复杂的现实世界任务,它们通常需要访问外部工具,例如搜索引擎、代码执行和数据库查询。
因此,人们提出了许多有效的智能体系统构建块,例如思维链规划和推理、记忆结构、工具使用和自我反思。尽管这些智能体已经在各种应用中取得了显著的成功,但开发这些构建块并将它们组合成复杂的智能体系统通常需要特定领域的手动调整以及研究人员和工程师的大量努力。
然而,机器学习的历史告诉我们,手工设计的解决方案最终会被模型学习到的解决方案所取代。
本文,来自不列颠哥伦比亚大学、非营利人工智能研究机构 Vector Institute 等的研究者制定了一个新的研究领域,即智能体系统的自动化设计(ADAS,Automated Design of Agentic Systems),并提出了一种简单但有效的 ADAS 算法,名为元智能体搜索(Meta Agent Search),以证明智能体可以通过代码编程来发明新颖而强大的智能体设计。
该研究旨在自动创建强大的智能体系统设计,包括开发新的构建块并以新的方式组合它们。
实验表明,基于 ADAS 所发现的智能体的性能大大优于最先进的手工设计的基线。例如,本文设计的智能体在 DROP 的阅读理解任务中将 F1 分数提高了 13.6/100(与基线比),在 MGSM 的数学任务中将准确率提高了 14.4%。此外,在跨域迁移后,它们在 GSM8K 和 GSM-Hard 数学任务上的准确率分别比基线提高了 25.9% 和 13.2%。
与手工设计的解决方案相比,本文算法表现出色,这说明 ADAS 在自动化智能体系统设计方面的潜力。此外,实验表明,所发现的智能体不仅在跨相似领域迁移时表现良好,而且在跨不同领域迁移时也表现出色,例如从数学到阅读理解。
论文地址:https://arxiv.org/pdf/2408.08435
项目地址:https://github.com/ShengranHu/ADAS
论文主页:https://www.shengranhu.com/ADAS/
论文标题:Automated Design of Agentic Systems
新研究领域:智能体系统的自动化设计(ADAS)
该研究提出了一个新的研究领域 —— 智能体系统的自动化设计(Automated Design of Agentic Systems,ADAS),并描述了 ADAS 算法的三个关键组成部分——搜索空间、搜索算法、评估函数。ADAS 使用搜索算法跨搜索空间来发现智能体系统。
搜索空间:搜索空间定义了哪些智能体系统可以在 ADAS 中被表征并被发现。例如,像 PromptBreeder (Fernando et al., 2024) 这样的工作仅改变智能体的文本提示,而其他组件(例如控制流)保持不变。因此,在搜索空间中,无法表征具有与预定义控制流不同控制流的智能体。
搜索算法:搜索算法定义了 ADAS 算法如何探索搜索空间。由于搜索空间通常非常大甚至无界,因此应考虑探索与利用的权衡(Sutton & Barto,2018)。理想情况下,该算法既可以快速发现高性能智能体系统,又可以避免陷入局部最优。现有方法包括使用强化学习(Zhuge et al., 2024)或迭代生成新解决方案的 FM(Fernando et al., 2024)作为搜索算法。
评估函数:根据 ADAS 算法的应用,可能需要考虑不同的优化目标,例如智能体的性能、成本、延迟或安全性。评估函数定义如何评估候选智能体的这些指标。例如,为了评估智能体在未见过的数据上的表现,一种简单的方法是计算任务验证数据的准确率。
该研究提出的简单但有效的 ADAS 算法——元智能体搜索的核心概念是指示元智能体迭代地创建有趣的新智能体,评估它们,将它们添加到智能体存储库中,并使用此存储库帮助元智能体在后续迭代中创建更有趣的新智能体。与现有的利用人类兴趣概念的开放式算法类似,该研究鼓励元智能体探索有趣的、有价值的智能体。
元智能体搜索的核心思想是采用 FM 作为搜索算法,基于不断增长的智能体存储库来迭代编程有趣的新智能体。该研究为元智能体定义了一个简单的框架(100 行代码以内),为其提供了一组基本功能,例如查询 FM 或格式化提示。
因此,元智能体只需要编写一个「前向」函数来定义一个新的智能体系统,类似于 FunSearch 中的做法(Romera-Paredes et al., 2024)。该函数接收任务信息并输出智能体对任务的响应。
如图 1 所示,元智能体搜索的核心思想是让元智能体在代码中迭代地编程新的智能体。下面显示了元智能体程序新智能体程序的主要提示,其中提示中的变量高亮显示。
实验
所有实验结果表明本文发现的智能体大大优于基线最先进的手工设计的智能体。值得注意的是,该研究发现的智能体在 DROP 阅读理解任务上比基线提高了 13.6/100(F1 分数),在 MGSM 数学任务上比基线提高了 14.4%(准确率)。此外,研究者发现的智能体在从 GPT-3.5 迁移到 GPT-4 后,在 ARC 任务上的表现比基线提高了 14%(准确率),在从 MGSM 数学任务迁移到 GSM8K 和 GSM-Hard 中的 held-out 数学任务后,准确率分别提高了 25.9% 和 13.2%。
案例研究:ARC 挑战
如图 3a 所示,元智能体搜索可以有效且逐步地发现性能优于最新手工设计的智能体。文本框中突出显示了重要的突破。
此外,图 3b 显示了发现最好的智能体,其中采用了复杂的反馈机制来更有效地细化答案。仔细观察搜索进度就会发现,这种复杂的反馈机制并不是突然出现的。
推理和问题 - 解决域
跨多个域的结果表明,元智能体搜索可以发现表现优于 SOTA 手工设计的智能体(表 1)。
泛化性以及可迁移性
研究者进一步展示了所发现智能体的可迁移性和可泛化性。
如表 2 所示,研究者观察到搜索到的智能体(searched agent)始终优于手工设计的智能体,并且差距很大。值得注意的是,研究者发现 Anthropic 最强大的模型 Claude-Sonnet 在所有测试模型中表现最佳,使基于该模型的智能体在 ARC 上实现了近 50% 的准确率。
如表 3 所示,研究者观察到元智能体搜索的性能与基线相比具有类似的优势。值得注意的是,与基线相比,本文的智能体在 GSM8K 和 GSM-Hard 上的准确率分别提高了 25.9% 和 13.2%。
更令人惊讶的是,研究者观察到在数学领域发现的智能体可以迁移到到非数学领域(表 4)。
理论要掌握,实操不能落!以上关于《用AI自动设计智能体,数学提分25.9%,远超手工设计》的详细介绍,大家都掌握了吧!如果想要继续提升自己的能力,那么就来关注golang学习网公众号吧!

- 上一篇
- 放弃四年后,盒马被曝已在上海重启“前置仓”模式

- 下一篇
- React 中的 CSS 冲突
-
- 科技周边 · 人工智能 | 7分钟前 |
- PerplexityAI怎么用?高效提问方法分享
- 325浏览 收藏
-
- 科技周边 · 人工智能 | 16分钟前 |
- DeepSeek能处理地理信息?DeepSeekGIS教程解析
- 111浏览 收藏
-
- 科技周边 · 人工智能 | 22分钟前 |
- 苹果DeepSeek安装教程全攻略
- 416浏览 收藏
-
- 科技周边 · 人工智能 | 28分钟前 |
- 多模态AI如何解析化学式与公式理解技术
- 436浏览 收藏
-
- 科技周边 · 人工智能 | 30分钟前 |
- 笔尖AI雅思口语评分与反馈技巧
- 496浏览 收藏
-
- 科技周边 · 人工智能 | 35分钟前 |
- ChatGPTAPI接入指南与调用教程
- 350浏览 收藏
-
- 科技周边 · 人工智能 | 38分钟前 |
- PerplexityAI怎么用?新手入门教程
- 222浏览 收藏
-
- 科技周边 · 人工智能 | 45分钟前 |
- PartCrafterAI支持多部件3D建模生成
- 462浏览 收藏
-
- 科技周边 · 人工智能 | 52分钟前 |
- 豆包AI函数怎么写?函数编写技巧分享
- 239浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 免费AI认证证书
- 科大讯飞AI大学堂推出免费大模型工程师认证,助力您掌握AI技能,提升职场竞争力。体系化学习,实战项目,权威认证,助您成为企业级大模型应用人才。
- 33次使用
-
- 茅茅虫AIGC检测
- 茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
- 161次使用
-
- 赛林匹克平台(Challympics)
- 探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
- 224次使用
-
- 笔格AIPPT
- SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
- 181次使用
-
- 稿定PPT
- 告别PPT制作难题!稿定PPT提供海量模板、AI智能生成、在线协作,助您轻松制作专业演示文稿。职场办公、教育学习、企业服务全覆盖,降本增效,释放创意!
- 170次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览