戴着VR头盔教机器人抓握,机器人当场就学会了
今天golang学习网给大家带来了《戴着VR头盔教机器人抓握,机器人当场就学会了》,其中涉及到的知识点包括等等,无论你是小白还是老手,都适合看一看哦~有好的建议也欢迎大家在评论留言,若是看完有所收获,也希望大家能多多点赞支持呀!一起加油学习~
近年来,机器人领域涌现出许多有趣的进展,比如机器狗会跳舞,会踢足球,双足机器人搬东西。通常这些机器人都依赖于根据感官输入生成控制策略。尽管这种方法避免了开发状态估计模块、建模对象属性和调整控制器增益方面的挑战,但需要大量的领域专业知识。即使取得了诸多进展,但学习瓶颈让机器人难以执行任意任务,无法实现通用的目标。
要了解机器人学习的关键,一个核心的问题是:我们如何收集机器人的训练数据?一种方法是通过自监督的数据收集策略收集有关机器人的数据。虽然这种方法比较稳健,但即使对于相对简单的操作任务,通常也需要数千小时与真实世界交互的大量数据。另一种是在模拟数据上进行训练,然后迁移到真实机器人(Sim2Real)。这允许机器人以快几个数量级的速度学习复杂的机器人行为。然而,设置模拟机器人环境和指定模拟器参数通常需要广泛的领域专业知识。
实际上还有第三种方法,收集训练数据还可以要求人类教师提供演示,然后训练机器人快速模仿人类的演示。这种模仿方法最近在各种具有挑战性的操作问题中显示出巨大的潜力。然而,这些工作中的大多数都存在一个根本性的限制——为机器人收集高质量的演示数据是很困难的。
基于上述问题,来自纽约大学和 Meta AI 的研究者提出了 HOLO-DEX,这是一个收集演示数据和训练灵巧机器人的新框架。它使用 VR 头显(例如 Quest 2)将人类教师置于身临其境的虚拟世界中。在这个虚拟世界中,教师可以从机器人的眼睛中查看机器人「看到」的场景,并通过内置的姿势检测器控制 Allegro 机械手。
看起来就像是人「手把手」教机器人做动作:
HOLODEX 允许人类通过低延迟的观察反馈系统为机器人无缝提供高质量的演示数据,它有以下三个优点:
- 与自监督的数据收集方法相比,HOLODEX 基于强大的模仿学习技术,可以在没有奖励机制的情况下快速训练;
- 与 Sim2Real 方法相比,学得的策略可以直接在真实机器人上执行,因为它们是在真实数据上训练的;
- 与其他模仿方法相比,HOLODEX 显著减少了对领域专业知识的要求,只需要人们操作 VR 设备。
论文链接:https://arxiv.org/pdf/2210.06463.pdf
项目链接:https://holo-dex.github.io/
代码链接:https://github.com/SridharPandian/Holo-Dex
为了评估 HOLO-DEX 的性能,该研究在六个需要灵巧操作的任务上进行了实验,包括手持物体、单手拧开瓶盖等。该研究发现人类教师使用 HOLO-DEX 可以比单图像遥操作(teleoperation)的先前工作快 1.8 倍。在 4/6 任务上,HOLO-DEX 学习策略的成功率超过了 90%。此外,该研究还发现通过 HOLO-DEX 学得的灵巧策略可以泛化到新的、未见过的目标对象上。
总的来说,该研究的贡献包括:
- 提供了一种借助 VR 头显让人类教师在混合现实中实现高质量遥操作的方法;
- 实验表明,HOLO-DEX 收集的演示可用于训练有效且通用的灵巧操作行为;
- 该研究还对所提方法中的各种决策进行了分析和消融实验,以验证每一个关键设计的效用。
此外,与 HOLO-DEX 相关的混合现实 API、研究收集的演示和训练代码均已开源:https://holo-dex.github.io/
HOLO-DEX 架构概览
如下图 1 所示,HOLO-DEX 分两个阶段运行。在第一阶段,人类教师使用虚拟现实 (VR) 头显向机器人提供演示。这个阶段包括创建一个用于教学的虚拟世界、估计(estimate)教师的手部姿势、将教师的手部姿势重定位到机械手上,最后控制机器人的手部。在第一阶段收集了一些演示之后,HOLO-DEX 的第二阶段学习视觉策略来解决演示的任务。
该研究使用 Meta Quest 2 VR 头显将人类教师置于虚拟世界中,分辨率是 1832 × 1920,刷新率是 72 Hz。这款头显的基础版售价为 399 美元,相对较轻,只有 503 克,这让教师的演示操作更轻松舒适。更重要的是,Quest 2 的 API 接口允许创建自定义的混合现实世界,将机器人系统与 VR 中的诊断面板一起可视化。
使用 VR 头显估计手部姿势
相比于之前关于灵巧遥操作的工作相比,使用 VR 头显在人类教师的手部姿势估计方面具有三个好处。首先,由于 Quest 2 使用 4 个单色摄像头,其手势估计器比单摄像头估计器强大很多。其次,由于摄像机是内部校准的,因此它们不需要以前的多摄像机遥操作框架中所需的专门校准程序。第三,由于手部姿势估计器是集成到设备中的,因此它能够以 72Hz 的频率传输实时姿势。此前有研究指出,灵巧遥操作的一个重大挑战是以高精度和高频率获取手部姿势,HOLO-DEX 通过使用商业级 VR 头显显著简化了这个问题。
手部姿势重定向
下一步,从 VR 中提取的教师手部姿势需要重定位到机器手上。这首先要计算教师手部各个关节的角度,然后一种直接的重定向方法是「命令」机器人的关节变动到相应的角度。这种方法适用于该研究中除拇指以外的所有手指,但 Allegro 机械手的形态与人类不是完全匹配的,拇指不能完全套用这种方法。
为了解决这个问题,该研究将教师拇指指尖的空间坐标映射到机器人的拇指指尖,然后通过逆运动学求解器计算拇指的关节角度。需要注意的是,由于 Allegro 机械手没有小拇指,该研究也就忽略了教师的小拇指角度。
整个姿势重定向过程不需要任何校准或教师特定的调整来收集演示。但该研究发现可以通过查找从教师拇指到机器人拇指的特定映射来改进拇指重定向。整个过程的计算成本很低,并且可以以 60 Hz 的频率传输所需的机器手姿势。
机器手控制
Allegro Hand 通过 ROS 通信框架进行异步控制。给定重定向程序计算的机器手关节位置,该研究使用 PD 控制器以 300Hz 输出所需扭矩。为了减少稳态误差,该研究使用重力补偿模块来计算偏移扭矩。在延迟测试中,该研究发现当 VR 耳机与机器人手在同一本地网络上时,可以实现低于 100 毫秒的延迟。低延迟和低错误率对于 HOLO-DEX 至关重要,因为这允许人类教师对机器手进行直观的遥操作。
当人类教师控制机器手时,他们可以实时看到机器人的变化(60Hz)。这允许教师纠正机器手的执行错误。在教学过程中,该研究以 5Hz 的频率记录来自三个 RGBD 摄像机的观察数据和机器人的动作信息。由于记录多个摄像机所需的大量数据占用空间和相关带宽,该研究不得不降低记录频率。
使用 HOLO-DEX 数据进行模仿学习
收集数据后就进入了第二阶段,HOLO-DEX 要在数据上训练视觉策略。该研究采用最近邻模仿 (INN) 算法进行学习。在之前的工作中,INN 被证明可以在 Allegro 手上产生基于状态的灵巧策略。HOLO-DEX 更进一步,并证明这些视觉策略可以推广到各种灵巧操作任务中的新对象。
为了选择获得低维嵌入的学习算法,该研究尝试了几种最先进的自监督学习算法,发现 BYOL 提供了最好的最近邻结果,因此选择 BYOL 作为基本的自监督学习方法。
实验结果
下表 1 展示了 HOLO-DEX 收集成功演示的速度比 DIME 快 1.8 倍。对于需要精确 3D 运动的 3/6 任务,该研究发现单图像遥操作甚至不足以收集单个演示。
该研究检查了各种模仿学习策略在灵巧任务上的性能,不同策略下每个任务的成功率如下表 2 所示。
由于该研究提出的策略是基于视觉的,并且不需要明确估计对象的状态,因此它们能与训练中未见过的对象兼容。该研究评估了其手动操作策略,这些策略经过训练可在多种视觉外观和几何形状的对象上执行平面旋转、对象翻转和 Can Spinning 任务,如下图 5 所示。
此外,该研究还在不同任务的不同大小的数据集上测试了 HOLO-DEX 的性能,可视化结果如下图所示。
好了,本文到此结束,带大家了解了《戴着VR头盔教机器人抓握,机器人当场就学会了》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多科技周边知识!

- 上一篇
- 全程高燃!聚焦广西第二届人工智能大赛总决赛的精彩瞬间

- 下一篇
- Windows 11 小部件不起作用/丢失:修复
-
- 科技周边 · 人工智能 | 59分钟前 |
- 文心一言能扩图吗?图文扩展功能详解
- 493浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 | 智能家居 语音控制 GoogleHome 例程 设备关联
- 智能家居AI怎么控制?GoogleHome语音教程
- 372浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 多模态AI提升图像识别效率的方法
- 445浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 |
- 何小鹏:小鹏P7预售破纪录将于下周上市
- 479浏览 收藏
-
- 科技周边 · 人工智能 | 3小时前 |
- 十八家云平台DeepSeek部署方案推荐
- 148浏览 收藏
-
- 科技周边 · 人工智能 | 3小时前 |
- 小米汽车8月交付破3.6万,YU7登顶SUV销量冠军
- 293浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 |
- Deepseek满血版搭配Prezi,打造惊艳演示体验
- 156浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 |
- AI生成证件照版权归属问题解析
- 218浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 | 自动化 DeepSeek 模型选择 AI工作流 ZapierRecipes
- Deepseek满血版联动Zapier,提升AI工作流效率
- 442浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 |
- AI剪辑接单赚钱靠谱吗?
- 490浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 |
- PerplexityAI搜索模板怎么保存?
- 463浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 514次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 499次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- AI Mermaid流程图
- SEO AI Mermaid 流程图工具:基于 Mermaid 语法,AI 辅助,自然语言生成流程图,提升可视化创作效率,适用于开发者、产品经理、教育工作者。
- 409次使用
-
- 搜获客【笔记生成器】
- 搜获客笔记生成器,国内首个聚焦小红书医美垂类的AI文案工具。1500万爆款文案库,行业专属算法,助您高效创作合规、引流的医美笔记,提升运营效率,引爆小红书流量!
- 395次使用
-
- iTerms
- iTerms是一款专业的一站式法律AI工作台,提供AI合同审查、AI合同起草及AI法律问答服务。通过智能问答、深度思考与联网检索,助您高效检索法律法规与司法判例,告别传统模板,实现合同一键起草与在线编辑,大幅提升法律事务处理效率。
- 424次使用
-
- TokenPony
- TokenPony是讯盟科技旗下的AI大模型聚合API平台。通过统一接口接入DeepSeek、Kimi、Qwen等主流模型,支持1024K超长上下文,实现零配置、免部署、极速响应与高性价比的AI应用开发,助力专业用户轻松构建智能服务。
- 424次使用
-
- 迅捷AIPPT
- 迅捷AIPPT是一款高效AI智能PPT生成软件,一键智能生成精美演示文稿。内置海量专业模板、多样风格,支持自定义大纲,助您轻松制作高质量PPT,大幅节省时间。
- 398次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览