当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > Windows、Office直接上手，大模型智能体操作电脑太6了

Windows、Office直接上手，大模型智能体操作电脑太6了

来源：51CTO.COM 2024-04-09 20:21:41 0浏览收藏

你在学习科技周边相关的知识吗？本文《Windows、Office直接上手，大模型智能体操作电脑太6了》，主要介绍的内容就涉及到，如果你想提升自己的开发能力，就不要错过这篇文章，大家要知道编程理论基础和实战操作都是不可或缺的哦！

提到AI助手的未来，人们很容易想到《钢铁侠》系列中的AI助手贾维斯。贾维斯在电影中展现了令人炫目的功能，不仅是托尼・斯塔克的得力助手，也是他与先进科技沟通的桥梁。随着大型模型的出现，人类使用工具的方式正在发生革命性变化，或许我们离科幻场景更近了一步。想象一下，一个多模态Agent能够像人类一样通过键盘和鼠标直接操控我们周围的电脑，这种突破将是多么激动人心。

Windows、Office直接上手，大模型智能体操作电脑太6了

AI助手贾维斯

吉林大学人工智能学院最新研究《ScreenAgent: A Vision Language Model-driven Computer Control Agent》展示了利用视觉大语言模型直接控制电脑 GUI 的想象成为现实。该研究提出了 ScreenAgent 模型，首次探索在不需要额外标签辅助的情况下，通过 VLM Agent 直接操控电脑鼠标和键盘，实现大规模模型直接进行电脑操作的目标。此外，ScreenAgent 运用自动化的「计划-执行-反思」流程，首次实现对 GUI 界面的连续控制。这项工作对人机交互方式进行了探索和创新，同时也开源了包括具有精确定位信息的数据集、控制器、训练代码等资源。

Windows、Office直接上手，大模型智能体操作电脑太6了

论文地址：https://arxiv.org/abs/2402.07945
项目地址：https://github.com/niuzaisheng/ScreenAgent

ScreenAgent为用户提供便利的在线娱乐、购物、旅行和阅读体验。它还可作为贴心管家，协助管理个人电脑，实现快速办公。无需费力，即可成为得力的办公助手。通过实际效果，用户可了解其功能。

带你网上冲浪，实现娱乐自由

ScreenAgent 根据用户文本描述上网查找并播放指定的视频：

Windows、Office直接上手，大模型智能体操作电脑太6了

Windows、Office直接上手，大模型智能体操作电脑太6了

系统操作管家，赋予用户高阶技能

让 ScreenAgent 打开 Windows 的事件查看器：

Windows、Office直接上手，大模型智能体操作电脑太6了

掌握办公技能，轻松玩转 office

此外，ScreenAgent 可以使用 office 办公软件。例如根据用户文本描述，删除所打开的第二页 PPT：

Windows、Office直接上手，大模型智能体操作电脑太6了

谋定而后动，知止而有得

对于要完成某一任务，在任务执行前必须要做好规划活动。ScreenAgent 可以在任务开始前，根据观测到的图像和用户需求，进行规划，例如：

将视频播放速度调至 1.5 倍速：

Windows、Office直接上手，大模型智能体操作电脑太6了

在 58 同城网站上搜索二手迈腾车的价格：

Windows、Office直接上手，大模型智能体操作电脑太6了

在命令行里安装 xeyes:

Windows、Office直接上手，大模型智能体操作电脑太6了

视觉定位能力迁移，鼠标选定无压力

ScreenAgent 还保留了对于自然事物的视觉定位能力，可以通过鼠标拖拽的方式绘制出物体的选框：

Windows、Office直接上手，大模型智能体操作电脑太6了

Windows、Office直接上手，大模型智能体操作电脑太6了

方法

事实上，要教会 Agent 与用户图形界面直接交互并不是一件简单的事情，需要 Agent 同时具备任务规划、图像理解、视觉定位、工具使用等多种综合能力。现有的模型或交互方案都存在一定妥协，例如 LLaVA-1.5 等模型缺乏在大尺寸图像上的精确视觉定位能力；GPT-4V 有非常强的任务规划、图像理解和 OCR 的能力，但是拒绝给出精确的坐标。现有的方案需要在图像上人工标注额外的数字标签，并让模型选择需要点选的 UI 元素，例如 Mobile-Agent、UFO 等项目；此外，CogAgent、Fuyu-8B 等模型可以支持高分辨率图像输入并有精确视觉定位能力，但是 CogAgent 缺乏完整函数调用能力，Fuyu-8B 则语言能力欠缺。

为了解决上述问题，文章提出为视觉语言模型智能体（VLM Agent）构建一个与真实计算机屏幕交互的全新环境。在这个环境中，智能体可以观察屏幕截图，并通过输出鼠标和键盘操作来操纵图形用户界面。为了引导 VLM Agent 与计算机屏幕进行持续的交互，文章构建了一个包含「计划-执行-反思」的运行流程。在计划阶段，Agent 被要求将用户任务拆解为子任务。在执行阶段，Agent 将观察屏幕截图，给出执行子任务的具体鼠标和键盘动作。控制器将执行这些动作，并将执行结果反馈给 Agent。在反思阶段，Agent 观察执行结果，并判定当前的状态，选择继续执行、重试或调整计划。这一流程持续进行，直到任务完成。值得一提的是，ScreenAgent 无需使用任何文字识别或图标识别模块，使用端到端的方式训练模型所有的能力。

Windows、Office直接上手，大模型智能体操作电脑太6了

ScreenAgent 环境参考了 VNC 远程桌面连接协议来设计 Agent 的动作空间，包含最基础的鼠标和键盘操作，鼠标的点击操作都需要 Agent 给出精确的屏幕坐标位置。相比起调用特定的 API 来完成任务，这种方式更加通用，可以适用于各种 Windows、Linux Desktop 等桌面操作系统和应用程序。

Windows、Office直接上手，大模型智能体操作电脑太6了

ScreenAgent 数据集

为了训练 ScreenAgent 模型，文章人工标注了具备精准视觉定位信息的 ScreenAgent 数据集。这一数据集涵盖了丰富的日常计算机任务，包括了 Windows 和 Linux Desktop 环境下的文件操作、网页浏览、游戏娱乐等场景。

Windows、Office直接上手，大模型智能体操作电脑太6了

数据集中每一个样本都是完成一个任务的完整流程，包含了动作描述、屏幕截图和具体执行的动作。例如，在亚马逊网站上「将最便宜的巧克力加入到购物车」的案例，需要先在搜索框中搜索关键词，再使用过滤器对价格进行排序，最后将最便宜的商品加入购物车。整个数据集包含 273 条完整的任务记录。

Windows、Office直接上手，大模型智能体操作电脑太6了

实验结果

在实验分析部分作者将 ScreenAgent 与多个现有的 VLM 模型从各个角度进行比较，主要包括两个层面，指令跟随能力和细粒度动作预测的正确率。指令跟随能力主要考验模型能否正确输出 JSON 格式的动作序列和动作类型的正确率。而动作属性预测的正确率则比较每一种动作的属性值是否预测正确，例如鼠标点击的位置、键盘按键等。

指令跟随

在指令跟随方面，Agent 的首要任务就是能够根据提示词输出正确的工具函数调用，即输出正确的 JSON 格式，在这方面 ScreenAgent 与 GPT-4V 都能够很好的遵循指令，而原版的 CogAgent 由于在视觉微调训练时缺乏 API 调用形式的数据的支撑，反而丧失了输出 JSON 的能力。

Windows、Office直接上手，大模型智能体操作电脑太6了

动作属性预测的正确率

从动作属性的正确率来看，ScreenAgent 也达到了与 GPT-4V 相当的水平。值得注意的是，ScreenAgent 在鼠标点击的精确度上远远超过了现有模型。这表明视觉微调有效增强了模型的精确定位能力。此外，我们还观察到 ScreenAgent 在任务规划方面与 GPT-4V 相比存在明显差距，这凸显了 GPT-4V 的常识知识和任务规划能力。

Windows、Office直接上手，大模型智能体操作电脑太6了

Windows、Office直接上手，大模型智能体操作电脑太6了

结论

吉林大学人工智能学院团队提出的 ScreenAgent 能够采用与人类一样的控制方式控制电脑，不依赖于其他的 API 或 OCR 模型，可以广泛应用于各种软件和操作系统。ScreenAgent 在「计划-执行-反思」的流程控制下，可以自主地完成用户给定的任务。采用这样的方式，用户可以看到任务完成的每一步，更好地理解 Agent 的行为想法。

文章开源了控制软件、模型训练代码、以及数据集。在此基础上可以探索更多迈向通用人工智能的前沿工作，例如在环境反馈下的强化学习、Agent 对开放世界的主动探索、构建世界模型、Agent 技能库等等。

此外，AI Agent 驱动的个人助理具有巨大的社会价值，例如帮助肢体受限的人群使用电脑，减少人类重复的数字劳动以及普及电脑教育等。在未来，或许不是每个人都能成为像钢铁侠那样的超级英雄，但我们都可能拥有一位专属的贾维斯，一位可以陪伴、辅助和指导我们的智能伙伴，为我们的生活和工作带来更多便利与可能。

以上就是本文的全部内容了，是否有顺利帮助你解决问题？若是能给你带来学习上的帮助，请大家多多支持golang学习网！更多关于科技周边的相关知识，也可关注golang学习网公众号。

数据训练

版本声明

本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除

过滤 embed.FS 会导致 HTTP 服务器上出现 ERR_TOO_MANY_REDIRECTS

过滤 embed.FS 会导致 HTTP 服务器上出现 ERR_TOO_MANY_REDIRECTS

上一篇: 过滤 embed.FS 会导致 HTTP 服务器上出现 ERR_TOO_MANY_REDIRECTS

Logrus：如何打印 con 控制台日志

下一篇: Logrus：如何打印 con 控制台日志

查看更多

最新文章

科技周边 · 人工智能 | 6天前 | 人工智能 · rag · 向量检索 · 知识库问答 · AI工程化 · 人工智能知识库 RAG 重排向量检索文档切分证据引用

AI 知识库检索召回工作流：从文档切分到重排和证据引用

191浏览收藏
科技周边 · 人工智能 | 1星期前 | JSON · 人工智能 · 结构化输出 · 大模型接口 · 后端接入 · 人工智能 JSON AI接口 Schema 结构化输出

AI 接口 JSON 返回不稳定排查：从提示词到结构化输出

299浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · mcp · ai agent · 工具接入 · 安全审计 · AI Agent MCP Model Context Protocol 工具清单资源上下文权限审计

MCP 服务接入工作流：从工具清单到权限审计的 AI Agent 落地路线

378浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · ai agent · 工具调用 · 结构化输出 · 工程排查 · AI Agent Schema 结构化输出超时重试工具调用兜底回答

AI Agent 工具调用失败排查：从 Schema 到超时兜底的完整工作流

195浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · rag · 知识库检索 · RAG 向量检索 AI知识库混合召回结果重排

AI 知识库检索不到答案排查：从分块到重排的 RAG 修复流程

453浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · AI工程 · 成本控制 · 人工智能成本控制 AI接口 token预算 Batch API

AI 批量调用成本控制：从请求日志到预算阈值的完整工作流

202浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · rag · 知识库 · AI工程实践 · 人工智能 RAG 知识库问答向量检索引用检查

AI 知识库回答跑偏怎么办：RAG 检索、重排和引用检查完整流程

419浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · ai agent · 工程实践 · AI Agent 上下文管理人工确认多智能体交接摘要

AI Agent 交接跑偏怎么办：从意图检查到交接摘要一步步排查

170浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · 质量检查 · AI应用 · 提示词工程 · 回归测试 · 大模型应用回归测试人工复核 AI提示词评分规则上线检查

AI 提示词回归测试实战：小样本集、评分规则和上线前对比

475浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · tracing · ai agent · 可观测性 · 工具调用 · 可观测性 AI Agent Tracing 工具调用 OpenAI Agents SDK

AI Agent Tracing 实战：工具调用、护栏和人工确认怎么追踪

292浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · ai agent · 工具调用 · 权限治理 · 人工智能审计日志 AI Agent 权限分级工具调用人工确认

AI Agent 工具权限分级实战：读、写、发布三类操作怎么管

379浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · AI应用 · 结构化输出 · 内容质检 · 提示词工程 · AI 提示词结构化输出 JSON Schema 质检流水线人工兜底

AI 输出质检流水线实战：规则检查、结构化结果和人工兜底

394浏览收藏

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

ljg-skills

ljg-skills 是李继刚开源的 AI 技能与提示词集合，面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板，适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。

2257次使用
MELO音乐

MELO音乐是一站式AI视频与音乐制作助手，对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐，MELO为你免费谱曲，轻松做同款！

2072次使用
UniScribe

UniScribe 是一款 AI 音视频转文字与内容整理工具，支持上传音频、视频文件或粘贴 YouTube 链接，自动生成转写文本、摘要、思维导图和关键问题，并支持多格式导出，适合会议记录、课程学习、访谈整理和内容创作复盘。

2016次使用
剧云

剧云是专业中文剧本创作平台，安全稳定运行十余年，集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能，数据安全防护，轻松高效创作剧本。

2230次使用
万象有声

万象有声，一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具，可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验，让有声书制作更简单！

2194次使用

查看更多

相关文章

AI写作工具免费版安装教程（含豆包Clawdbot）

2026-05-30 501浏览
WPS AI能自动生成PPT吗？输入主题一键制作演示文稿

2026-05-27 501浏览
Canva手机闪退解决方法及适配指南

2026-05-25 501浏览
Hermes Agent依赖的工具链有哪些必备工具链介绍

2026-05-05 501浏览
千问AI官网地址链接入口_千问AI官方网站登陆入口

2026-05-05 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码