当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐

朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐

来源:机器之心 2024-11-26 11:03:34 0浏览 收藏

学习知识要善于思考,思考,再思考!今天golang学习网小编就给大家带来《朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐》,以下内容主要包含等知识点,如果你正在学习或准备学习科技周边,就都不要错过本文啦~让我们一起来看看吧,能帮助到你就更好了!

在人形机器人领域,有一个非常值钱的问题:既然人形机器人的样子与人类类似,那么它们能使用网络视频等数据进行学习和训练吗?

如果可以,那考虑到网络视频的庞大规模,机器人就再也不用担心没有学习资源了。

近日,德克萨斯大学奥斯汀分校和 NVIDIA Research 的朱玉可团队公布了他们的一篇 CoRL 2024 oral 论文,其中提出了一种名为 OKAMI 的方法,可基于单个 RGB-D 视频生成操作规划并推断执行策略。
朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐
  • 论文地址:OKAMI: Teaching Humanoid Robots Manipulation Skills through Single Video Imitation
  • 论文链接:https://arxiv.org/pdf/2410.11792
  • 项目地址:https://ut-austin-rpl.github.io/OKAMI/

先来看看演示视频:朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐
可以看到,机器人在看过人类演示者向袋子中装东西后,也学会了以同样的动作向袋子中装东西。不仅如此,OKAMI 还能让人形机器人看一眼演示视频就轻松学会撒盐、将玩具放进篮子和合上笔记本电脑等任务。
朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐
朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐
朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐
和 AI 领域内的许多技术一样,OKAMI 也是一个缩写词,全称是 Object-aware Kinematic retArgeting for huManoid Imitation,即用于人形机器人模仿的物体感知型动力学重定向

顾名思义,这是一种物体感知型重定向方法,可以让具有两个灵巧机器手的双手型人形机器人基于单个 RGB-D 视频演示模仿其中的操作行为。

OKAMI 方法详解

OKAMI 采用了一种两阶段过程,可将人类运动重新定向成人形机器人的运动,从而可在不同初始条件下完成任务。

在第一个阶段,OKAMI 会处理视频并生成一个参考操作规划。
朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐
在第二个阶段,OKAMI 会使用该规划来合成人形机器人的运动,这个过程会用到运动重定向,其作用是适应目标环境中的物体位置。
朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐
图 2 展示了其整个工作流程。
朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐
问题描述

首先,该团队将人形机器人操作任务描述成了一个离散时间马尔可夫决策过程,并将其定义成了一个元组 M = (S, A, P, R, γ, µ)。其中 S 是状态空间、A 是动作空间、P (・|s, a) 是转移概率、R (s) 是奖励函数、γ ∈ [0, 1) 是折扣因子、µ 是初始状态分布。

在这里,S 就是原始 RGB-D 观察的空间,其中包含机器人和物体的状态;A 则是人形机器人的运动指令的空间;R 是一个稀疏的奖励函数 —— 当任务完成时,返回 1。对于一个任务,其目标是找到一个策略 π,使其可以在测试时间最大化大量不同的初始配置下的预期任务成功率。

他们考虑了「基于观察的开放世界模仿」设置。在该设置中,这个机器人系统会获得一段录制的 RGB-D 人类视频 V,然后其需要返回一个人形机器人操作策略 π,使机器人可以完成视频演示的任务。

参考规划生成

为了实现物体感知型重新定向,OKAMI 首先会为人形机器人生成一个参考规划。规划生成需要了解有哪些与任务相关的物体以及人类如何操作它们。

识别和定位与任务相关的物体

为了模仿视频 V 中的操作任务,OKAMI 必须识别要交互的物体。之前的方法需要具有简单背景的无监督方法或需要额外的人工标注,而 OKAMI 则不一样,其使用了现成可用的视觉 - 语言模型(VLM)GPT-4V 来识别 V 中与任务相关的物体;这自然是用到了该模型中内化的常识性知识

具体来说,OKAMI 会通过采样 RGB 帧并使用 GPT-4V 来获取与任务相关的物体的名称。使用这些名称,OKAMI 再使用 Grounded-SAM 来分割第一帧中的物体并使用视频目标分割模型 Cutie 来跟踪这些物体的位置。

重建人类运动

为了将人类运动重新定向成机器人运动,OKAMI 会重建来自 V 的人类运动以获取运动轨迹。为此,他们采用了改进版的 SLAHMR,这是一种用于重建人类运动序列的迭代式优化算法。虽然 SLAHMR 假设双手平放,而新的扩展优化了 SMPL-H 模型的手部姿势,这些姿势使用来自 HaMeR 的估计手部姿势进行初始化。此修改使得单目视频中的身体和手部姿势可以进行联合优化。其输出是一个获取了全身和手部姿势的 SMPL-H 模型序列,让 OKAMI 可以将人类动作重新定向到人形机器人。

此外,SMPL-H 模型还能表示不同人类外观的人类姿势,从而可以轻松地将人类演示者的运动映射到人形机器人。

基于视频生成规划

有了任务相关的物体和重建出来的人类运动,OKAMI 就可以基于 V 生成用于完成每个子目标的参考规划了。

OKAMI 识别子目标的方式是基于以下流程执行时间分割:

  • 首先使用 CoTracker 跟踪关键点,并检测关键点的速度变化以确定关键帧,这些关键帧对应于子目标状态。
  • 对于每个子目标,都确定一个目标物体(会因为操作而运动)和一个参考物体(通过接触或非接触关系作为目标物体运动的空间参考)。目标物体是根据每个物体的平均关键点速度确定的,而参考物体则通过 GPT-4V 预测的几何启发式或语义关系来识别。
  • 确定子目标和相关物体后,生成一个参考规划 l_0, l_1, . . . , l_N,其中每一步 l_i 都对应于一个关键帧,并且包含目标物体 o_target、参考问题 o_reference 和 SMPL-H 轨迹段 朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐的点云。

物体感知型重定向

有了来自演示视频的参考规划后,OKAMI 便可以让人形机器人模仿 V 中的任务。机器人会遵循规划中的每个步骤 l_i。然后经过重新定向的轨迹会被转换成关节指令。这个过程一直重复直到任务完成,之后基于任务特定的条件来评估是否成功。

在测试时间定位物体

为了在测试时间环境中执行规划,OKAMI 必须定位机器人观察中的相关物体,提取 3D 点云来跟踪物体位置。通过关注与任务相关的物体,OKAMI 策略可以泛化用于各不相同的视觉背景,包括不同的背景或任务相关物体新实例。

将人类运动重新定位到人形机器人

物体感知的关键是使运动适应新的物体位置。在定位物体后,OKAMI 会采用一种分解式重新定位过程,即分别合成手臂和手部运动。

OKAMI 首先根据物体位置调整手臂运动,以便将手指置于以物体为中心的坐标系内。然后,OKAMI 只需在关节配置中重新定位手指,以模仿演示者用手与物体交互的方式。

具体来说,首先将人体运动映射到人形机器人的任务空间,缩放和调整轨迹以考虑尺寸和比例的差异。然后,OKAMI 扭曲变形(warp)重新定位的轨迹,以便机器人的手臂到达新的物体位置。该团队考虑了两种轨迹变形情况 —— 当目标和参考物体之间的关系状态不变时以及当关系状态发生变化时,相应地调整变形。

在第一种情况下,仅基于目标物体位置执行轨迹变形。在第二种情况下,基于参考物体位置执行变形。

变形之后,使用逆动力学计算机器臂的关节配置序列,同时平衡逆运动学计算中的位置和旋转目标的权重以保持自然姿势。同时,将人类手部姿势重新定位到机器人的手指关节,使机器人能够执行精细的操作。

最后,可得到一套全身关节配置轨迹。由于机器臂运动重新定向是仿射式的,因此这个过程可以自然地适应不同演示者的情况。通过调整手臂轨迹以适应物体位置并独立重新定位手部姿势,OKAMI 可实现跨各种空间布局的泛化。

实验及结果

研究者在实验部分主要回答了以下四个研究问题:

  1. OKAMI 能否有效地让人形机器人基于单个人类演示视频来模仿各种操作任务?
  2. 在 OKAMI 中,将演示者的身体动作重新定位到人形机器人身上是否重要,以及为什么没有选择仅根据物体位置进行重新定位?
  3. OKAMI 能否在多样化人体统计学特征的人类演示视频中始终保持自身性能?
  4. OKAMI 生成的展示(rollout)是否可以用来训练闭环视觉运动策略?

任务设计。研究者在实验中执行了六项任务,分别如下:
朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐
  1. 将毛绒玩具放入篮子里(Plush-toy-in-basket)
  2. 将少许盐撒入碗中(Sprinkle-salt)
  3. 关上抽屉(Close-the-drawer)
  4. 合上笔记本电脑的盖子(Close-the-laptop)
  5. 将一袋零食放在盘子上(Place-snacks-on-plate)
  6. 将薯片袋放入购物袋中(Bagging)

硬件设置。研究者使用 Fourier GR1 机器人作为自己的硬件平台,配备了两个 6 自由度(DoF)的 Inspire 灵巧手以及一个用来录制视频和进行测试时观察的 D435i Intel RealSense 摄像头。此外还实现了一个以 400Hz 运行的关节位置控制器。为了避免出现抖动,研究者以 40Hz 来计算关节位置命令,并将命令插入 400Hz 轨迹。

评估方案。研究者针对每项任务运行了 12 次试验。过程中,物体的位置在机器人摄像头视野和人形手臂可触及范围的交点内进行随机初始化。

基线。研究者将 OKAMI 与基线 ORION 进行了比较。

定性结果

为了回答问题 1),研究者评估了 OKAMI 在所有任务中的策略,覆盖日常取放、倾倒和操纵铰接物体等多样性行为。结果如下图 4(a)所示,实验中随机初始化了物体位置,这样做让机器人需要适应物体的位置。从结果来看,OKAMI 可以有效地泛化到不同的视觉和空间条件。

为了回答问题 2),研究者在两项代表性任务上将 OKAMI 与 ORION 进行比较,分别是将 Place-snacks-on-plate 和 Close-the-laptop。二者的不同之处在于 ORION 不以人类身体姿态为条件。结果显示,OKAMI 在两项任务上分别实现了 75.0% 和 83.3% 的成功率,而 ORION 分别只有 0.0% 和 41.2%,拉开了很大的差距。

为了回答问题 3),研究者进行了一项受控实验,记录了不同演示者的视频,并测试 OKAMI 策略是否对所有视频输入都能保持良好的性能。同样地,他们选择的任务是 Place-snacks-on-plate 和 Close-the-laptop,结果如图 4(b)所示。

总体而言,OKAMI 能够在处理不同演示者的视频时保持相当不错的性能,不过处理这类多样性的视觉 pipeline 仍有改进的空间。
朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐
利用 OKAMI Rollout 数据学习视觉运动策略

为了解决问题 4),研究者在 OKAMI rollout 上训练了神经视觉运动策略。他们首先在随机初始化的物体 rollout 上运行 OKAMI,并在收集一个包含成功轨迹的数据集同时丢弃失败的轨迹。此外他们通过行为克隆算法在该数据集上训练神经网络策略,并为 Sprinkle-salt 和 Bagging 两项任务训练视觉运动策略。

下图 5 展示了这些策略的成功率,表明 OKAMI rollout 可以成为有效的训练数据源。并且,随着收集到的 rollout 增多,学习到的策略会随之改进。这些结果有望扩展数据收集范围,从而无需费力远程操作也能学习人形机器人操作技能。

局限性和未来工作

OKAMI 虽强,但也并不完美,下面展示了两个失败实例:
朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐
朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐
OKAMI 目前专注于人形机器人的上半身运动重定向,尤其是用于桌面工作空间的操控任务。因此未来有希望扩展到下半身重定向,以便在视频模仿期间实现运动行为。更进一步,实现全身运动操控则需要一个全身运动控制器,而不是 OKAMI 中使用的关节控制器。

此外,研究者在 OKAMI 中依赖 RGB-D 视频,这限制了他们使用以 RGB 记录的野外互联网视频。因此扩展 OKAMI 使用网络视频将是未来另一个有潜力的研究方向。最后,当前重定向的实现在面对物体的形状变化较大时表现出了较弱的稳健性。

未来的改进将是整合更强大的基础模型,使机器人能够总体了解如何与一类物体进行交互,即使这类物体的形状变化很大。

参考链接:
https://x.com/yukez/status/1848373529386860933

今天带大家了解了的相关知识,希望对你有所帮助;关于科技周边的技术知识我们会一点点深入介绍,欢迎大家关注golang学习网公众号,一起学习编程~

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
win11系统怎么设置下滑关机 win11屏幕下滑关机设置方法win11系统怎么设置下滑关机 win11屏幕下滑关机设置方法
上一篇
win11系统怎么设置下滑关机 win11屏幕下滑关机设置方法
元塔
下一篇
元塔
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    9次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    9次使用
  • AI音乐实验室:一站式AI音乐创作平台,助力音乐创作
    AI音乐实验室
    AI音乐实验室(https://www.aimusiclab.cn/)是一款专注于AI音乐创作的平台,提供从作曲到分轨的全流程工具,降低音乐创作门槛。免费与付费结合,适用于音乐爱好者、独立音乐人及内容创作者,助力提升创作效率。
    9次使用
  • SEO标题PixPro:AI驱动网页端图像处理平台,提升效率的终极解决方案
    PixPro
    SEO摘要PixPro是一款专注于网页端AI图像处理的平台,提供高效、多功能的图像处理解决方案。通过AI擦除、扩图、抠图、裁切和压缩等功能,PixPro帮助开发者和企业实现“上传即处理”的智能化升级,适用于电商、社交媒体等高频图像处理场景。了解更多PixPro的核心功能和应用案例,提升您的图像处理效率。
    9次使用
  • EasyMusic.ai:零门槛AI音乐生成平台,专业级输出助力全场景创作
    EasyMusic
    EasyMusic.ai是一款面向全场景音乐创作需求的AI音乐生成平台,提供“零门槛创作 专业级输出”的服务。无论你是内容创作者、音乐人、游戏开发者还是教育工作者,都能通过EasyMusic.ai快速生成高品质音乐,满足短视频、游戏、广告、教育等多元需求。平台支持一键生成与深度定制,积累了超10万创作者,生成超100万首音乐作品,用户满意度达99%。
    12次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码