下一代Windows曝光:GPT-4V加持,UFO代号下的跨应用调度
下一代Windows操作系统的曝光引发了广泛关注,微软首次为Windows设计的智能体(Agent)——UFO,基于GPT-4V技术,实现了在多个应用之间无缝切换,完成复杂任务的能力。整个过程无需人工干预,其执行成功率和效率是GPT-4的两倍,GPT-3.5的四倍。例如,删除PPT演示文稿上的所有备注,UFO只需几步就能完成。此外,UFO还可以利用多个来源的文本,如Word文档和图像文本内容,来撰写电子邮件。网友表示:这才是Windows级别应有的创新能力。
下一代Windows操作系统的曝光引发了广泛关注。微软首次为Windows设计的智能体(Agent)——UFO,基于GPT-4V技术,实现了在多个应用之间无缝切换,完成复杂任务的能力。整个过程无需人工干预,其执行成功率和效率是GPT-4的两倍,GPT-3.5的四倍。
例如,删除PPT演示文稿上的所有备注,UFO只需几步就能完成。
此外,UFO还可以利用多个来源的文本,如Word文档和图像文本内容,来撰写电子邮件。
网友表示:这才是Windows级别应有的创新能力。
首个Windows Agent——UFO,代号“UI-Focused”,是一个专为Windows OS(操作系统)交互设计、面向用户界面(UI)的智能体框架。由MSRA、微软AI与应用研究团队等共同打造,用户可以通过自然语言指令操作App的用户界面。
UFO是首个为Windows OS环境中的任务完成量身定制的UI Agent。
以删除PPT上的所有注释为例,传统方法需要逐页手动删除,过程繁琐且耗时。但UFO在接收到指令后,简化了操作。它首先建议使用“删除所有演示笔记”功能,该功能因按钮位置隐蔽常被忽视。随后,UFO导航至“File”选项,访问后台视图;然后平滑切换到“info”菜单,点击“检查问题”按钮,选择“检查文档”以识别所有注释。接着,UFO识别出菜单底部的“删除所有演示笔记”,滚动定位并启动点击功能。考虑到误删的风险,UFO提供了一道保护机制,需要用户再次确认是否要删除所有注释。一旦确认,所有笔记瞬间消失。
文章中还展示了其他几个场景的图文说明,如阅读PDF:
设计PPT格式:
下载Docker扩展:
发布推文:
搜索总结:
阅读论文:
以及如何在Word文档中利用UFO提取文本、描述图像、撰写并发送电子邮件等。
研究团队在9个常用Windows应用程序上测试了UFO,包括Outlook、Photos、PPT、Word等,涵盖了Windows用户的高频使用场景,能够满足工作、交流、编码、阅读、网页浏览等需求。对于每个应用程序,团队设计了5个不同的请求,总共45个;另外还设计了5个跨多个交互应用程序的请求。总共产生了50个请求,每个应用程序至少有一个请求链接到另一个后续请求,提供了全面评估UFO的互动模式。
在评估指标方面,团队从成功度、步骤、完成率和保障率几个角度评估UFO。为了全面评估UFO的性能,团队开发了名为WindowsBench的测试基准。由于没有现成的Windows Agent,团队选择GPT-3.5和GPT-4作为基座模型,并指示它们提供一步一步的指导来完成用户请求。
值得注意的是,UFO在WindowsBench上的成功率达到了86%,远超GPT-4,因此UFO可以被定位为一个高效的Agent。UFO的完成率也是最佳的,表明它能够采取更精确的动作;此外,UFO完成任务的步骤最少,安全度最高。
最后,9个场景在WindowsBench上的详细得分如下:
这样的操作系统级别的Agent是如何实现的呢?首先,UFO理解用户的自然语言要求,并将其分解为一系列子任务。然后观察用户界面,并对其控制元素进行操作,以实现总体目标。
架构上看,UFO是一个双Agent框架,主要由三个模块组成:应用智能体(AppAgent),选择一个应用程序满足用户请求;行动智能体(ActAgent),负责在所选应用中反复执行任务;交互控制,无需人工干预,全自动执行。在收到用户请求后,AppAgent会对需求进行分析,并以桌面截图、App信息、记忆以及示例作为输入。UFO为AppAgent提供了完整的桌面截图和可用应用程序列表以供参考。
然后从当前激活的应用程序中选择一个合适的应用程序,并制定一个全局实现计划,将其传递给ActAgent。
一旦找到合适的应用程序,App就会出现在桌面上。随后ActAgent启动操作。在每个操作选择之前,UFO都会捕获当前应用程序用户界面窗口的屏幕截图,并标注所有可用控件。此外,UFO还记录了每个控件的相关信息,供ActAgent观察。
ActAgent的任务是选择要操作的控件,然后通过控件交互模块选择要在所选控件上执行的特定操作。
这一决定是基于ActAgent的观察结果、先前计划和操作记忆做出的。这个递归过程一直持续到用户请求在所选应用程序中成功完成为止。至此,用户请求的一个阶段结束。
如果需要跨越多个应用程序,那么在ActAgent完成当前任务之后,ActAgent将把任务委托给AppAgent,以便切换到不同的应用程序,从而启动请求的第二阶段。
用户可以选择提出新的请求,促使UFO通过重复上述过程来处理新任务。
研究团队依据日常鼠标操作,还开发了自定义操作,如单击、选择文本、滚动等,以此来完成对于控件的操作。
主要有这些控制类型。
最后介绍一下UFO的研究团队,其中大多数为华人。
通讯作者Chaoyun Zhang,是微软DKI(Data、Knowledge、Intelligence,数据/知识/情报)小组的高级研究员。他于2020年在爱丁堡大学获得硕士和博士学位,研究兴趣包括时间序列建模、时空数据挖掘、因果推理以及云服务和AIOps的可解释机器学习。Chaoyun Zhang还是华中科技大学校友,出国前在华中科技大学电子信息与通信学院取得学士学位。
作者Liqun Li,现为微软DKI组首席研究员。他先毕业于清华大学计算机科学与技术系,取得学士学位;而后又在2012年获得中国科学院软件研究所博士学位。期间,Liqun Li曾作为访问学者前往密歇根州立大学。
作者Saravan Rajmohan,Microsoft 365的AI及应用研究的合作伙伴总监。他领导应用研究团队与Microsoft的各个研究小组进行深入协作,将算法研究与AI/ML技术和硬件创新相结合。
作者张冬梅,MSRA(微软亚洲研究院)常务副院长,微软杰出首席科学家。她从2004年起加入MSRA,从事和领导DKI领域的研究工作,近几年,团队将研究扩大到商业智能领域。
作者张祺,微软全球资深副总裁。此前,张祺曾任微软(亚洲)互联网工程院常务副院长,兼任微软移动联新互联网服务有限公司董事长,负责微软互联网业务及人工智能平台在亚洲的团队。同时,他也是微软中国首位“全球杰出工程师”。
最后,简单介绍一下多位作者的工作单位:MSRA的DKI组。DKI是Data、Knowledge、Intelligence的简写。该小组致力于AI、数据分析、数据交互、数据可视化的研究,探索全新的数据分析、展示、交互技术,让数据和数据中的发现故事被高效地理解、广泛地传播。团队与微软产品如Excel,PowerPoint等深度合作,常年在各个领域的顶会和期刊上发表论文。
参考链接:[1]https://github.com/microsoft/UFO [2]https://arxiv.org/abs/2402.07939 [3]https://twitter.com/_akhaliq/status/1757625641724215585
好了,本文到此结束,带大家了解了《下一代Windows曝光:GPT-4V加持,UFO代号下的跨应用调度》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多文章知识!

- 上一篇
- Python中True的含义与布尔真值详解

- 下一篇
- win7截图工具调出方法及使用详解
-
- 文章 · 软件教程 | 5小时前 |
- 无线上网安全攻略:保护网络的秘诀
- 133浏览 收藏
-
- 文章 · 软件教程 | 5小时前 |
- Win11托盘图标管理与显示终极攻略
- 176浏览 收藏
-
- 文章 · 软件教程 | 5小时前 |
- Mac系统改英语的详细步骤
- 436浏览 收藏
-
- 文章 · 软件教程 | 5小时前 |
- Win10LTCS2021蓝屏代码page故障解析
- 204浏览 收藏
-
- 文章 · 软件教程 | 5小时前 |
- 简单查看Win10激活状态的方法
- 452浏览 收藏
-
- 文章 · 软件教程 | 5小时前 |
- win10fodhelper.exe弹窗解决秘籍
- 403浏览 收藏
-
- 文章 · 软件教程 | 5小时前 |
- Win10开始菜单无响应的终极解决方案
- 169浏览 收藏
-
- 文章 · 软件教程 | 5小时前 |
- Win102004更新0xc1900404错误解决秘籍
- 193浏览 收藏
-
- 文章 · 软件教程 | 5小时前 |
- Win10家庭组创建攻略,轻松搞定网络共享
- 385浏览 收藏
-
- 文章 · 软件教程 | 5小时前 |
- Win10浏览器打不开?一招搞定
- 148浏览 收藏
-
- 文章 · 软件教程 | 5小时前 |
- Win10显卡硬件加速轻松关闭教程
- 363浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 互联网信息服务算法备案系统
- 了解互联网信息服务算法备案系统,掌握如何进行算法备案的详细步骤和要求,确保您的互联网服务合规运营。
- 25次使用
-
- 魔匠AI
- SEO摘要魔匠AI专注于高质量AI学术写作,已稳定运行6年。提供无限改稿、选题优化、大纲生成、多语言支持、真实参考文献、数据图表生成、查重降重等全流程服务,确保论文质量与隐私安全。适用于专科、本科、硕士学生及研究者,满足多语言学术需求。
- 81次使用
-
- PPTFake答辩PPT生成器
- PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
- 90次使用
-
- Lovart
- SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
- 150次使用
-
- 美图AI抠图
- 美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
- 88次使用
-
- pe系统下载好如何重装的具体教程
- 2023-05-01 501浏览
-
- qq游戏大厅怎么开启蓝钻提醒功能-qq游戏大厅开启蓝钻提醒功能教程
- 2023-04-29 501浏览
-
- 吉吉影音怎样播放网络视频 吉吉影音播放网络视频的操作步骤
- 2023-04-09 501浏览
-
- 腾讯会议怎么使用电脑音频 腾讯会议播放电脑音频的方法
- 2023-04-04 501浏览
-
- PPT制作图片滚动效果的简单方法
- 2023-04-26 501浏览