刚刚,OpenAI正式放出智能体Operator!能推理、联网自主执行任务
学习知识要善于思考,思考,再思考!今天golang学习网小编就给大家带来《刚刚,OpenAI正式放出智能体Operator!能推理、联网自主执行任务》,以下内容主要包含等知识点,如果你正在学习或准备学习科技周边,就都不要错过本文啦~让我们一起来看看吧,能帮助到你就更好了!
OpenAI发布Operator:能联网自动执行任务的AI智能体,引发AI社区热议!
北京时间昨天傍晚,继“星际之门项目”后,OpenAI再次成为AI领域的焦点。ChatGPT Pro用户发现界面新增“Operator”选项,引发猜测:OpenAI的计算机使用智能体来了吗?
这一消息导致ChatGPT访问量激增,服务器不堪重负,短暂宕机约3小时。 凌晨,OpenAI正式发布Operator及底层模型Agents。
Operator现为研究预览版智能体,可访问互联网自动执行任务,OpenAI计划将其整合到ChatGPT中。目前仅限美国Pro用户使用。
虽然计算机使用型AI并非新鲜事物(Anthropic去年10月已发布类似功能,国内智谱的GLM-PC也已开放体验),Operator的发布仍引发热议——毕竟这是OpenAI。OpenAI总裁Greg Brockman再次强调:2025年是智能体之年。
部分Pro用户已分享使用案例,例如:根据图片和菜谱订购食材、规划旅行路线、研究投资等。 当然,也有不少调侃之声。
Operator功能演示及技术解读
Operator界面如下:
Operator由名为“计算机使用智能体”(CUA)的新模型驱动,结合GPT-4o的视觉能力和强化学习的高级推理能力,可与图形用户界面(GUI)交互。
Operator可“查看”(通过截图)和“交互”(使用鼠标键盘)浏览器,无需自定义API即可在网页上操作。 它能自我纠错,并在遇到困难时将控制权交还给用户。
演示功能包括:餐厅预订、根据手写购物单购物、订票等。
CUA模型结合多模态理解和推理,将任务分解为多步骤规划,并能自适应纠错。这标志着AI发展的新阶段,允许模型使用人类常用的工具,并开启大量新应用。
CUA工作原理
CUA通过处理原始像素数据理解屏幕内容,并使用虚拟鼠标和键盘操作。它能处理多步骤任务、错误和意外变化,无需专用API即可在多种数字环境中运行,执行填写表格、浏览网站等任务。
CUA通过感知、推理和行动的迭代循环操作:
- 感知:屏幕截图作为模型上下文,提供当前状态的视觉快照;
- 推理:使用链式推理后续步骤,考虑当前和过去的截图及操作;
- 行动:执行操作,直到任务完成或需要用户输入。它会主动请求用户确认敏感操作。
CUA仍处于早期阶段,但已取得SOTA基准测试结果:OSWorld (38.1%),WebArena (58.1%),WebVoyager (87%)。
使用方法、生态系统及安全隐私
Operator使用简单,用户描述任务即可。用户可随时接管,Operator也会主动请求用户输入敏感信息。 可添加自定义指令,保存常用提示词,并同时运行多个任务。
OpenAI已与DoorDash、Instacart等企业合作。 Operator采用三层安全机制:用户控制、数据隐私管理和恶意网站防御。
未来计划包括:通过API开放CUA模型、增强功能和扩展用户群体。
参考链接:
https://openai.com/index/introducing-operator/
https://openai.com/index/computer-using-agent/
文中关于OpenAI,产业,Operator的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《刚刚,OpenAI正式放出智能体Operator!能推理、联网自主执行任务》文章吧,也可关注golang学习网公众号了解相关技术文章。

- 上一篇
- 使用 Cohere command-r 和 Streamlit 创建具有上下文检索功能的聊天机器人

- 下一篇
- Mozilla 的新机器学习 API、Bun 中的重大变化、开发人员工具等
-
- 科技周边 · 人工智能 | 1分钟前 |
- AI视频生成助力知识与情感解说案例解析
- 408浏览 收藏
-
- 科技周边 · 人工智能 | 3分钟前 |
- 鸿蒙智行焕新计划,最高补贴4万来袭
- 258浏览 收藏
-
- 科技周边 · 人工智能 | 18分钟前 |
- 多模态AI如何解析化学式与公式理解技术
- 321浏览 收藏
-
- 科技周边 · 人工智能 | 25分钟前 |
- 豆包AI如何搭配剪辑工具?全攻略详解
- 281浏览 收藏
-
- 科技周边 · 人工智能 | 35分钟前 |
- AIOverviews目前不支持图表生成。
- 256浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- AI剪辑生成视频,月入过万真的吗?
- 409浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- MemoAI官网使用全攻略
- 133浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 511次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 498次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 千音漫语
- 千音漫语,北京熠声科技倾力打造的智能声音创作助手,提供AI配音、音视频翻译、语音识别、声音克隆等强大功能,助力有声书制作、视频创作、教育培训等领域,官网:https://qianyin123.com
- 164次使用
-
- MiniWork
- MiniWork是一款智能高效的AI工具平台,专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具,提供精准智能解决方案,让复杂工作简单高效。
- 156次使用
-
- NoCode
- NoCode (nocode.cn)是领先的无代码开发平台,通过拖放、AI对话等简单操作,助您快速创建各类应用、网站与管理系统。无需编程知识,轻松实现个人生活、商业经营、企业管理多场景需求,大幅降低开发门槛,高效低成本。
- 166次使用
-
- 达医智影
- 达医智影,阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”,仅一次CT扫描即可高效识别多种癌症、急症及慢病,为疾病早期发现提供智能、精准的AI影像早筛解决方案。
- 166次使用
-
- 智慧芽Eureka
- 智慧芽Eureka,专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景,通过专家级AI Agent精准执行任务,智能化工作流解放70%生产力,让您专注核心创新。
- 175次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览