当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > OpenAI机器人展现出了出色的表现,在语言理解和执行能力方面都具备强大实力

OpenAI机器人展现出了出色的表现,在语言理解和执行能力方面都具备强大实力

来源:51CTO.COM 2024-03-25 08:48:20 0浏览 收藏

OpenAI 的大模型赋能 Figure 01 机器人,使其在语言理解和执行能力方面取得突破。借助 OpenAI 的能力,Figure 01 能够与人类对话,理解指令并执行复杂的动作,例如递送物品、整理餐具,且无需远程操作。通过描述其视觉体验、规划行动、解释推理过程等能力,Figure 01 展现出高度的认知能力和学习能力。这些进步标志着人形机器人向具身智能时代迈出的重要一步,预示着未来机器人将拥有更广泛的应用场景。

「借助 OpenAI 的能力,Figure 01 现在可以与人全面对话了!」

本周三,半个硅谷都在投的明星机器人创业公司 Figure,发布了全新 OpenAI 大模型加持的机器人 demo。

能说会看会行动,OpenAI机器人,一出手就是王炸

这家公司在 3 月 1 日刚刚宣布获得 OpenAI 等公司的投资,才十几天就直接用上了 OpenAI 的多模态大模型。

如你所见,得到 OpenAI 大模型能力加持的 Figure 01 现在是这个样子的。

能说会看会行动,OpenAI机器人,一出手就是王炸


它可以为听从人类的命令,递给人类苹果。

能说会看会行动,OpenAI机器人,一出手就是王炸

将黑色塑料袋收拾进框子里。

能说会看会行动,OpenAI机器人,一出手就是王炸

将杯子和盘子归置放在沥水架上。

能说会看会行动,OpenAI机器人,一出手就是王炸

需要强调的是:你看到的这一切,只用到了一个神经网络。

广大网友在看到如此惊艳的 demo 后,对机器人的发展速度感到震惊,我们似乎正处在这场汹涌的进化浪潮中。甚至有人感叹,已经准备好迎接更多的机器人了。

能说会看会行动,OpenAI机器人,一出手就是王炸

能说会看会行动,OpenAI机器人,一出手就是王炸

能说会看会行动,OpenAI机器人,一出手就是王炸

还有网友调侃道:「波士顿动力:好的,伙计们,这是一场真正的竞争。让我们回到实验室,设计更多舞蹈套路。」

能说会看会行动,OpenAI机器人,一出手就是王炸

所有这些,全是机器人自学的!

Figure创始人Brett Adcock表示,视频中Figure 01展示了端到端神经网络框架下与人类的对话,没有任何远程操作。并且,机器人的速度有了显著的提升,开始接近人类的速度。

能说会看会行动,OpenAI机器人,一出手就是王炸

Figure机器人操作高级AI工程师Corey Lynch介绍了此次Figure 01的技术原理。他表示,Figure 01现在可以做到以下这些:

  • 描述其视觉体验
  • 规划未来的行动
  • 反思自己的记忆
  • 口头解释推理过程

能说会看会行动,OpenAI机器人,一出手就是王炸

他接着解释道,视频中机器人的所有行为都是学到的(再次强调不是远程操作),并以正常速度(1.0x)运行。

在具体实现过程中,他们将机器人摄像头中的图像输入,并将机载麦克风捕获的语音文本转录到由 OpenAI训练的大型多模态模型中,该模型可以理解图像和文本。该模型对整个对话记录进行处理,包括过去的图像,从而获得语言响应,然后通过文本到语音的方式将其回复给人类。

此外,该模型负责决定在机器人上运行哪些学习到的闭环行为以完成给定的命令,从而将特定的神经网络权重加载到GPU上并执行策略。

能说会看会行动,OpenAI机器人,一出手就是王炸

将Figure 01 连接到大型预训练多模态模型为其提供了一些有趣的新功能。Figure 01 + OpenAI 现在可以:

  • 描述其周围环境。
  • 使用常识推理做出决定。例如,「桌子上的盘子和杯子等餐具接下来可能需要放进沥水架」。
  • 将「我饿了」等模棱两可的高级请求转化为一些适合上下文的行为,例如「递给对方一个苹果」。
  • 用简单的英语描述为什么它执行特定的操作。例如,「这是我可以从桌子上为您提供的唯一可食用物品」。

能说会看会行动,OpenAI机器人,一出手就是王炸

理解对话历史的大型预训练模型为Figure 01提供了强大的短期记忆。

考虑一个简单的问题:「你能把它们放在那里吗?」

其中 「它们」指的是什么?「那里」又是哪里?正确回答这个问题需要反思记忆的能力。

通过预训练模型分析对话的图像和文本历史记录,Figure 01快速形成并执行计划:1)将杯子放在沥水架上,2)将盘子放在沥水架上。

能说会看会行动,OpenAI机器人,一出手就是王炸

关于学到的低级双手操作,所有行为均由神经网络视觉运动transformer策略驱动,将像素直接映射到动作。这些网络以10hz 的频率接收机载图像,并以200hz的频率生成 24-DOF 动作(手腕姿势和手指关节角度)。

这些动作充当高速「设定点」,以供更高速率的全身控制器跟踪。这是一个有用的关注点分离,其中:

  • 互联网预训练模型对图像和文本进行常识推理,以得出高级规划。
  • 学习到的视觉运动策略执行计划,执行难以手动指定的快速反应行为,例如在任何位置操纵可变形的袋子。
  • 全身控制器确保安全、稳定的动力,例如保持平衡。

最后他表示,即使在几年前,自己还认为人形机器人规划和执行自身完全学得行为的同时与人类进行完整的对话是几十年后才能看到的事情。显然,现在已经发生了太多变化。

能说会看会行动,OpenAI机器人,一出手就是王炸

至于声音方面,大家都在猜机器人金属感十足的声音源自谁?有猜乔布斯的、Sam Altman的,也有猜演员 Rob Lowe 的,你认为呢?

能说会看会行动,OpenAI机器人,一出手就是王炸


Figure,具身智能时代最热创业公司

最近,生成式 AI 的竞争正在走向长文本、多模态,各家科技公司和机构也没有忘记投资下个热点——具身智能。

具身智能,对于计算机视觉、机器人等领域来说是一个很有挑战的目标:假设 AI 智能体(机器人)不仅能接收来自数据集的静态图像,还能在三维虚拟世界甚至真实环境中四处移动,并与周围环境交互,那我们就会迎来技术的一次重大突破,从识别图像等机器学习的简单能力,转变到学习如何通过多个步骤执行复杂的类人任务。

被生成式 AI 龙头 OpenAI 看好的具身智能,最有希望通向具身智能的公司,似乎就是这家 Figure。3月1日,Figure 宣布完成惊人的 6.75 亿美元 B 轮融资,公司估值达到 26 亿美元。一眼望去,感觉半个硅谷都投了它:微软、英特尔、OpenAI Startup Fund、Amazon Industrial Innovation Fund 、英伟达、贝索斯、「木头姐」的方舟投资、Parkway Venture Capital、Align Ventures 等。该公司的产品 Figure 01,据称是世界上第一个具有商业可行性的自主人形机器人,身高 1.5 米,体重 60 公斤,可承载 20 公斤货物,采用电机驱动。它的可工作时长是 5 小时,行走速度每秒 1.2 米,可以说很多指标已经接近人类。自 2023 年 1 月以来,人们对 Figure 的关注度一直在上升。虽然到目前为止,公司一共才发布过四个 demo 视频。

据Figure表示,机器人练习这些动作的方法是端到端的,神经网络的训练时间是10小时。

在 2 月 27 日的视频里,Figure 01 自主完成了一个典型的物流环节任务——搬运空箱。

当然,速度还是比人类慢了很多。不过在这些任务中,Figure 01 都是完全自主地执行任务。所谓「完全自主」,是指只需将机器人放在地面上(无论放在屋里什么地方),在没有其他用户输入的情况下,直接按开始就行。

在训练过的大型视觉语言模型( VLM )帮助下,人形机器人会先识别、定位目标箱子,然后推理合适的拿放姿势。接下来,Figure 01 会导航自己到目标跟前,检测抓取点和手部力量,尝试抓取成功并将箱子放到传送带上。

这些技术亮点也是 Figure 和一直希望回归机器人领域的 OpenAI 达成合作协议的重要原因之一——将 OpenAI 的研究与 Figure 的机器人经验结合起来,为人形机器人开发下一代 AI 模型。OpenAI 也希望将自己的高性能多模态大模型扩展到机器人领域。

除了接受大笔风投之外,Figure 也在积极拓展落地场景。目前,Figure 01 已经开始在宝马位于南卡罗来纳州斯帕坦堡的汽车工厂接受测试,人们计划让机器人替代人类从事一些危险度高的任务。

今天带大家了解了的相关知识,希望对你有所帮助;关于科技周边的技术知识我们会一点点深入介绍,欢迎大家关注golang学习网公众号,一起学习编程~

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
如何使用 golang 将字节数组转换为虚拟文件对象?如何使用 golang 将字节数组转换为虚拟文件对象?
上一篇
如何使用 golang 将字节数组转换为虚拟文件对象?
探索Go语言中的图形编程:开发图形API的潜在用途
下一篇
探索Go语言中的图形编程:开发图形API的潜在用途
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    15次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    12次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    12次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    16次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    17次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码