当前位置:首页 > 文章列表 > 文章 > 软件教程 > 下一代Windows曝光:GPT-4V加持,UFO代号下的跨应用调度

下一代Windows曝光:GPT-4V加持,UFO代号下的跨应用调度

2025-05-27 10:06:48 0浏览 收藏

下一代Windows操作系统的曝光引发了广泛关注,微软首次为Windows设计的智能体(Agent)——UFO,基于GPT-4V技术,实现了在多个应用之间无缝切换,完成复杂任务的能力。整个过程无需人工干预,其执行成功率和效率是GPT-4的两倍,GPT-3.5的四倍。例如,删除PPT演示文稿上的所有备注,UFO只需几步就能完成。此外,UFO还可以利用多个来源的文本,如Word文档和图像文本内容,来撰写电子邮件。网友表示:这才是Windows级别应有的创新能力。

下一代Windows操作系统的曝光引发了广泛关注。微软首次为Windows设计的智能体(Agent)——UFO,基于GPT-4V技术,实现了在多个应用之间无缝切换,完成复杂任务的能力。整个过程无需人工干预,其执行成功率和效率是GPT-4的两倍,GPT-3.5的四倍。

例如,删除PPT演示文稿上的所有备注,UFO只需几步就能完成。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO此外,UFO还可以利用多个来源的文本,如Word文档和图像文本内容,来撰写电子邮件。

网友表示:这才是Windows级别应有的创新能力。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO首个Windows Agent——UFO,代号“UI-Focused”,是一个专为Windows OS(操作系统)交互设计、面向用户界面(UI)的智能体框架。由MSRA、微软AI与应用研究团队等共同打造,用户可以通过自然语言指令操作App的用户界面。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFOUFO是首个为Windows OS环境中的任务完成量身定制的UI Agent。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO以删除PPT上的所有注释为例,传统方法需要逐页手动删除,过程繁琐且耗时。但UFO在接收到指令后,简化了操作。它首先建议使用“删除所有演示笔记”功能,该功能因按钮位置隐蔽常被忽视。随后,UFO导航至“File”选项,访问后台视图;然后平滑切换到“info”菜单,点击“检查问题”按钮,选择“检查文档”以识别所有注释。接着,UFO识别出菜单底部的“删除所有演示笔记”,滚动定位并启动点击功能。考虑到误删的风险,UFO提供了一道保护机制,需要用户再次确认是否要删除所有注释。一旦确认,所有笔记瞬间消失。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO文章中还展示了其他几个场景的图文说明,如阅读PDF:

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO设计PPT格式:

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO下载Docker扩展:

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO发布推文:

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO搜索总结:

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO阅读论文:

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO以及如何在Word文档中利用UFO提取文本、描述图像、撰写并发送电子邮件等。

研究团队在9个常用Windows应用程序上测试了UFO,包括Outlook、Photos、PPT、Word等,涵盖了Windows用户的高频使用场景,能够满足工作、交流、编码、阅读、网页浏览等需求。对于每个应用程序,团队设计了5个不同的请求,总共45个;另外还设计了5个跨多个交互应用程序的请求。总共产生了50个请求,每个应用程序至少有一个请求链接到另一个后续请求,提供了全面评估UFO的互动模式。

在评估指标方面,团队从成功度、步骤、完成率和保障率几个角度评估UFO。为了全面评估UFO的性能,团队开发了名为WindowsBench的测试基准。由于没有现成的Windows Agent,团队选择GPT-3.5和GPT-4作为基座模型,并指示它们提供一步一步的指导来完成用户请求。

值得注意的是,UFO在WindowsBench上的成功率达到了86%,远超GPT-4,因此UFO可以被定位为一个高效的Agent。UFO的完成率也是最佳的,表明它能够采取更精确的动作;此外,UFO完成任务的步骤最少,安全度最高。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO最后,9个场景在WindowsBench上的详细得分如下:

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO这样的操作系统级别的Agent是如何实现的呢?首先,UFO理解用户的自然语言要求,并将其分解为一系列子任务。然后观察用户界面,并对其控制元素进行操作,以实现总体目标。

架构上看,UFO是一个双Agent框架,主要由三个模块组成:应用智能体(AppAgent),选择一个应用程序满足用户请求;行动智能体(ActAgent),负责在所选应用中反复执行任务;交互控制,无需人工干预,全自动执行。在收到用户请求后,AppAgent会对需求进行分析,并以桌面截图、App信息、记忆以及示例作为输入。UFO为AppAgent提供了完整的桌面截图和可用应用程序列表以供参考。

然后从当前激活的应用程序中选择一个合适的应用程序,并制定一个全局实现计划,将其传递给ActAgent。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO一旦找到合适的应用程序,App就会出现在桌面上。随后ActAgent启动操作。在每个操作选择之前,UFO都会捕获当前应用程序用户界面窗口的屏幕截图,并标注所有可用控件。此外,UFO还记录了每个控件的相关信息,供ActAgent观察。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFOActAgent的任务是选择要操作的控件,然后通过控件交互模块选择要在所选控件上执行的特定操作。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO这一决定是基于ActAgent的观察结果、先前计划和操作记忆做出的。这个递归过程一直持续到用户请求在所选应用程序中成功完成为止。至此,用户请求的一个阶段结束。

如果需要跨越多个应用程序,那么在ActAgent完成当前任务之后,ActAgent将把任务委托给AppAgent,以便切换到不同的应用程序,从而启动请求的第二阶段。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO用户可以选择提出新的请求,促使UFO通过重复上述过程来处理新任务。

研究团队依据日常鼠标操作,还开发了自定义操作,如单击、选择文本、滚动等,以此来完成对于控件的操作。

主要有这些控制类型。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO最后介绍一下UFO的研究团队,其中大多数为华人。

通讯作者Chaoyun Zhang,是微软DKI(Data、Knowledge、Intelligence,数据/知识/情报)小组的高级研究员。他于2020年在爱丁堡大学获得硕士和博士学位,研究兴趣包括时间序列建模、时空数据挖掘、因果推理以及云服务和AIOps的可解释机器学习。Chaoyun Zhang还是华中科技大学校友,出国前在华中科技大学电子信息与通信学院取得学士学位。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO作者Liqun Li,现为微软DKI组首席研究员。他先毕业于清华大学计算机科学与技术系,取得学士学位;而后又在2012年获得中国科学院软件研究所博士学位。期间,Liqun Li曾作为访问学者前往密歇根州立大学。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO作者Saravan Rajmohan,Microsoft 365的AI及应用研究的合作伙伴总监。他领导应用研究团队与Microsoft的各个研究小组进行深入协作,将算法研究与AI/ML技术和硬件创新相结合。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO作者张冬梅,MSRA(微软亚洲研究院)常务副院长,微软杰出首席科学家。她从2004年起加入MSRA,从事和领导DKI领域的研究工作,近几年,团队将研究扩大到商业智能领域。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO作者张祺,微软全球资深副总裁。此前,张祺曾任微软(亚洲)互联网工程院常务副院长,兼任微软移动联新互联网服务有限公司董事长,负责微软互联网业务及人工智能平台在亚洲的团队。同时,他也是微软中国首位“全球杰出工程师”。

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO最后,简单介绍一下多位作者的工作单位:MSRA的DKI组。DKI是Data、Knowledge、Intelligence的简写。该小组致力于AI、数据分析、数据交互、数据可视化的研究,探索全新的数据分析、展示、交互技术,让数据和数据中的发现故事被高效地理解、广泛地传播。团队与微软产品如Excel,PowerPoint等深度合作,常年在各个领域的顶会和期刊上发表论文。

参考链接:[1]https://github.com/microsoft/UFO [2]https://arxiv.org/abs/2402.07939 [3]https://twitter.com/_akhaliq/status/1757625641724215585

好了,本文到此结束,带大家了解了《下一代Windows曝光:GPT-4V加持,UFO代号下的跨应用调度》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多文章知识!

Python中True的含义与布尔真值详解Python中True的含义与布尔真值详解
上一篇
Python中True的含义与布尔真值详解
win7截图工具调出方法及使用详解
下一篇
win7截图工具调出方法及使用详解
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 互联网信息服务算法备案系统:如何完成算法备案流程
    互联网信息服务算法备案系统
    了解互联网信息服务算法备案系统,掌握如何进行算法备案的详细步骤和要求,确保您的互联网服务合规运营。
    25次使用
  • SEO标题魔匠AI:高质量学术写作平台,毕业论文生成与优化专家
    魔匠AI
    SEO摘要魔匠AI专注于高质量AI学术写作,已稳定运行6年。提供无限改稿、选题优化、大纲生成、多语言支持、真实参考文献、数据图表生成、查重降重等全流程服务,确保论文质量与隐私安全。适用于专科、本科、硕士学生及研究者,满足多语言学术需求。
    81次使用
  • PPTFake答辩PPT生成器:一键生成高效专业的答辩PPT
    PPTFake答辩PPT生成器
    PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
    90次使用
  • SEO标题Lovart AI:全球首个设计领域AI智能体,实现全链路设计自动化
    Lovart
    SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
    150次使用
  • 美图AI抠图:行业领先的智能图像处理技术,3秒出图,精准无误
    美图AI抠图
    美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
    88次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码