有效评估Agent实际表现,新型在线评测框架WebCanvas来了
知识点掌握了,还需要不断练习才能熟练运用。下面golang学习网给大家带来一个科技周边开发实战,手把手教大家学习《有效评估Agent实际表现,新型在线评测框架WebCanvas来了》,在实现功能的过程中也带大家重新温习相关知识点,温故而知新,回头看看说不定又有不一样的感悟!
潘奕琛:浙江大学硕士一年级研究生。孔德涵:跨越星空科技模型算法负责人。周思达:南昌大学 2024 届毕业生,将于西安电子科技大学攻读硕士。崔成:浙江中医药大学 2024 届毕业生,将于苏州大学攻读硕士。
潘奕琛、周思达、崔成以跨越星空科技算法实习生的身份共同完成了本论文的研究工作。
在当今科技迅速发展的时代,大型语言模型(Large Language Model,LLM)正以前所未有的速度改变着我们与数字世界的互动方式。基于 LLM 的智能代理(LLM Agent),从简单的信息搜索到复杂的网页操作,它们正在逐步融入我们的生活。然而,一个关键问题仍然悬而未决:当这些 LLM Agent 踏入真实的在线网络世界时,它们的表现能否如预期般游刃有余?
现有的评测方法大多停留在静态数据集或模拟网站的层面。这些方法有其价值,但局限性显而易见:静态数据集难以捕捉网页环境的动态变化,如界面更新和内容迭代;而模拟网站则缺乏真实世界的复杂性,未能充分考虑跨站操作,例如使用搜索引擎等操作,这些因素在真实环境中是不可或缺的。
为破解这一难题,一篇题为《WebCanvas: Benchmarking Web Agents
in Online Environments》的论文提出了一种创新的在线评测框架 ——WebCanvas,旨在为 Agent 在真实网络世界中的表现提供一个全面的评估方法。
论文链接:https://arxiv.org/pdf/2406.12373
WebCanvas 平台链接:https://imean.ai/web-canvas
项目代码链接:https://github.com/iMeanAI/WebCanvas
数据集链接:https://huggingface.co/datasets/iMeanAI/Mind2Web-Live
WebCanvas 的创新点之一在于提出了 “关键节点” 的概念。这一概念不仅聚焦于任务的最终完成情况,还能够深入至任务执行过程的细节,确保评估的精准度。通过识别并检测任务流程中的关键节点 —— 无论是到达特定网页,还是执行特定操作(如点击特定的按钮),WebCanvas 为在线评估 Agent 提供了一个新的视角。
WebCanvas 框架图。左侧展示的是任务的标注过程,右侧展示的是任务的评估过程。WebCanvas 考虑到了在线网络交互中任务路径的非唯一性,“奖杯” 代表成功到达每个关键节点后获得的步骤分数。
基于 WebCanvas 框架,作者构建了 Mind2Web-Live 数据集,该数据集包含从 Mind2Web 中随机挑选出的 542 个任务。本文作者还为数据集中的每个任务都标注了关键节点。通过一系列实验,我们发现,当 Agent 配备 Memory 模块,辅以 ReAct 推理框架,并搭载 GPT-4-turbo 模型后,其任务成功率提升至 23.1%。我们深信,随着技术的不断演进,Web Agent 的潜力依旧无限,这个数字将很快会被突破。
关键节点
“关键节点” 的概念是 WebCanvas 的核心思想之一。关键节点指的是完成特定网络任务过程中不可或缺的步骤,也就是说,无论完成任务的路径如何,这些步骤都是不可或缺的。这些步骤涵盖了访问特定网页以及在页面上执行特定操作,如填写表单或点击按钮。
以 WebCanvas 框架图绿色部分为例,用户需要在烂番茄网站上寻找评分最高的即将上映的冒险电影。他可以通过多种途径达到目的,比如从烂番茄的首页开始探索,或者直接通过搜索引擎定位置 “即将上映的电影” 页面。在筛选影片的过程中,用户可能先选择 “冒险” 类型,再根据受欢迎程度排序,或者反之亦然。虽然存在多条实现目标的路径,但进入特定页面并进行筛选是完成任务不可或缺的步骤。因此,这三个操作被定义为该任务的关键节点。
评估指标
WebCanvas 的评估体系分为两大部分:步骤得分和任务得分,两者共同构评估 WebAgent 综合能力。
步骤得分:衡量 Agent 在关键节点上的表现,每个关键节点都与一个评估函数相关联,通过三种评估目标(URL、元素路径、元素值)和三种匹配函数(精确、包含、语义)来实现。每到达一个关键节点并通过评估函数,Agent 就能获得相应的分数。
评估函数总览,其中 E 代表网页元素 Element
任务得分:分为任务完成得分和效率得分。任务完成得分反映 Agent 是否成功拿到了此任务所有的步骤得分。而效率得分则考量了任务执行的资源利用率,计算方法为每个步骤得分所需的平均步骤数。
Mind2Web-Live 数据集
作者从 Mind2Web 训练集中随机抽取了 601 个与时间无关的任务,以及测试集 Cross-task 子集中的 179 个同样与时间无关的任务,然后将这些任务在真实在线环境中进行标注。最终,作者构建了由 542 个任务组成的 Mind2Web-Live 数据集, 其中包含了 438 个训练样本和 104 个用于测试的样本。下图直观地展示了标注结果和评估函数的分布。
数据标注工具
数据标注过程中,作者使用了跨越星空科技开发的 iMean Builder 浏览器插件。该插件能够记录用户浏览器交互行为,包括但不限于点击、文本输入、悬浮、拖拽等动作,同时记录操作的具体类型、执行参数、目标元素的 Selector 路径,以及元素内容和页面坐标位置。此外,iMean Builder 还为每一步操作生成网页截图,为验证和维护工作流程提供了直观的展示。
示例:使用 iMean Builder 插件注释两个不同的任务。(A) 在 Yelp 上查找加州提供免费 Wi-Fi 的豪华轿车停车场,(B) 在 Steam 上查找 Dota 2 游戏并将所有 DLC 添加到购物车中
数据维护
网络环境瞬息万变,网站内容的更新、用户界面的调整乃至站点的关闭都是不可避免的常态。这些变化可能导致先前定义的任务或关键节点失去时效性,从而影响评测的有效性和公平性。
为此,作者设计了一套数据维护方案,旨在确保评测集的持续相关性和准确性。在数据收集阶段,除了标注关键节点外,iMean Builder 插件还能够详细记录每一步工作流执行的信息,包括动作类型、Selector 路径、元素值以及坐标位置等。后续使用 iMean Replay SDK 的元素匹配策略就能重现工作流动作,并及时发现并报告工作流或评估函数中的任何无效情况。
通过此方案,我们有效解决了流程失效带来的挑战,确保了评测数据集能够适应网络世界的不断演变,为自动化评测 Agent 的能力提供了坚实的基础。
数据管理平台
在 WebCanvas 网站上,用户可以清晰地浏览所有已录制的任务流程及其关键节点,也能够迅速向平台管理员反馈失效的流程,确保数据的时效性和准确性。
同时,作者鼓励社区成员积极参与,共同构建一个良好的生态系统。无论是维护现有数据的完整性,还是开发更先进的 Agent 进行测试,甚至是创造全新的数据集,WebCanvas 都欢迎各种形式的贡献。这不仅促进了数据质量的提升,还鼓励技术创新,能够形成良性循环推动整个领域向前发展。
WebCanvas 网站首页
Mind2Web-Live 数据集的可视化展示
基础 Agent 框架
作者构建了一个全面的 Agent 框架,旨在优化 Agent 在在线网络环境下的任务执行效率。该框架主要由四个关键组件组成:规划(Planning)、观察(Observation)、记忆(Memory)以及奖励(Reward)模块。
规划(Planning):基于 Accessibility Tree 的输入,Planning 模块运用 ReAct 推理框架进行逻辑推断,生成具体的操作指令。此模块的核心功能在于根据当前状态和任务目标,给出行动路径。
观察(Observation):Agent 通过解析浏览器提供的 HTML 源代码,将其转换成 Accessibility Tree 结构。这一过程确保了 Agent 能够以标准化格式接收网页信息,便于后续分析和决策。
记忆(Memory):Memory 模块负责存储 Agent 在任务执行过程中的历史数据,包括但不限于 Agent 的思考过程、过往的决策等。
奖励(Reward):Reward 模块能对 Agent 的行为给予评价,包括对决策质量的反馈以及给出任务完成信号。
基础 Agent 框架示意图
主要实验
作者使用基础 Agent 框架并接入不同 LLM 进行评估(不含 Reward 模块)。实验结果如下图所示,其中 Completion Rate 指的是关键节点的达成率,Task Success Rate 指的是任务成功率。
除此之外,作者还探索了 Reward 模块对 Agent 能力的影响,其中 (+) 号代表 Reward 信息中包含人类标注数据以及关键节点信息供 Agent 参考,Human Alignment 分数代表 Agent 与人类的对齐程度。初步实验的结果表明,在线网络环境中,Agent 并不能够通过 Self Reward 模块改善能力,但是整合了原始标注数据的 Reward 模块能够增强 Agent 的能力。
实验分析
在附录中,作者对实验结果进行了分析,下图是任务复杂度与任务难度之间的关系,橙色线条描绘了关键节点达成率随任务复杂度增加的变化轨迹,而蓝色线条则反映了任务成功率随任务复杂度的变化轨迹。
任务复杂度与任务难度之间的关系。"num of steps" 指的是标注数据中动作序列的长度,与关键节点的数量一起作为任务复杂度的参考。
下表是实验结果与地区、设备、系统之间的关系。
总结
在推动 LLM 和 Agent 技术发展的征途上,构建一套适应真实网络环境的评测体系至关重要。本文聚焦于在瞬息万变的互联网世界中有效地评价 Agent 的表现。我们直面挑战,通过在开放的环境中界定关键节点和对应的评测函数达成了这一目标,并开发数据维护系统减小了后续维护成本。
经过不懈努力,我们已迈出了实质性的步伐,并向着建立稳健且精准的在线评测系统前进。然而,在动态的网络空间中进行评测并非易事,它引入了一系列在封闭、离线场景下未曾遭遇的复杂问题。在评测 Agent 的过程中,我们遇到了诸如网络连接不稳定、网站访问限制,以及评测函数的局限性等难题。这些问题凸显出在复杂的真实环境中,对 Agent 进行评测所面临的艰巨任务,要求我们不断精进调整 Agent 的推理和评测框架。
我们呼吁整个科研社区共同协作,以应对未知挑战,推动评测技术的革新与完善。我们坚信,只有通过持续的研究与实践,才能逐步克服这些障碍。我们期待着与同行们携手并进,共创 LLM Agent 的新纪元。
文中关于理论的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《有效评估Agent实际表现,新型在线评测框架WebCanvas来了》文章吧,也可关注golang学习网公众号了解相关技术文章。

- 上一篇
- Mistral AI两连发:7B数学推理专用、Mamba2架构代码大模型

- 下一篇
- 无损加速最高5x,EAGLE-2让RTX 3060的生成速度超过A100
-
- 科技周边 · 人工智能 | 6小时前 |
- 用豆包A/生成的表情包如何赚钱
- 369浏览 收藏
-
- 科技周边 · 人工智能 | 7小时前 |
- 理想L系列智能焕新版5月8日发布L7/8/9齐上新
- 368浏览 收藏
-
- 科技周边 · 人工智能 | 7小时前 |
- DeepSeek+Triop:AI手绘到3D建模全程解析
- 136浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- 奔驰纯电新车曝光:仅800V快充或慢充
- 319浏览 收藏
-
- 科技周边 · 人工智能 | 10小时前 |
- 全新日产帕拉丁黑武士版上市,17.28万起
- 396浏览 收藏
-
- 科技周边 · 人工智能 | 11小时前 |
- 1-2月乘用车摄像头装机量破1300万增14.6%
- 350浏览 收藏
-
- 科技周边 · 人工智能 | 11小时前 |
- 谷歌升级Gemini2.5Pro,强化多模态AI
- 263浏览 收藏
-
- 科技周边 · 人工智能 | 12小时前 |
- 即梦ai添加时间戳教程即梦ai日期水印设置攻略
- 448浏览 收藏
-
- 科技周边 · 人工智能 | 13小时前 |
- 免费AI证件照生成网站全方位测评
- 229浏览 收藏
-
- 科技周边 · 人工智能 | 14小时前 |
- 4月车市火爆:以旧换新激增,品牌销量创新高
- 182浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 魔匠AI
- SEO摘要魔匠AI专注于高质量AI学术写作,已稳定运行6年。提供无限改稿、选题优化、大纲生成、多语言支持、真实参考文献、数据图表生成、查重降重等全流程服务,确保论文质量与隐私安全。适用于专科、本科、硕士学生及研究者,满足多语言学术需求。
- 16次使用
-
- PPTFake答辩PPT生成器
- PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
- 30次使用
-
- Lovart
- SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
- 31次使用
-
- 美图AI抠图
- 美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
- 37次使用
-
- PetGPT
- SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
- 36次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览