当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 用7500条轨迹数据训练，CMU、Meta让机器人达到全能的厅堂与厨房水平

用7500条轨迹数据训练，CMU、Meta让机器人达到全能的厅堂与厨房水平

来源：51CTO.COM 2023-08-22 22:40:33 0浏览收藏

小伙伴们对科技周边编程感兴趣吗？是否正在学习相关知识点？如果是，那么本文《用7500条轨迹数据训练，CMU、Meta让机器人达到全能的厅堂与厨房水平》，就很适合你，本篇文章讲解的知识点主要包括。在之后的文章中也会多多分享相关知识点，希望对大家的知识积累有所帮助！

仅仅通过使用7500条轨迹数据进行训练，这个机器人可以展示出12种不同的操作技能，在38个任务中，不仅仅限于拾取和推动，还包括关节对象操纵和物体重新定位。而且，这些技能还可以应用于数百个不同的未知情境，包括未知物体、未知任务，甚至完全未知的厨房环境。这样的机器人真的很酷吧！

用7500条轨迹数据训练，CMU、Meta让机器人达到全能的厅堂与厨房水平

数十年来，创造一个能够在不同环境中操纵任意物体的机器人一直是一个遥不可及的目标。其中一个原因是缺乏多样化的机器人数据集，无法训练这样的智能体，同时也缺乏能够生成此类数据集的通用智能体

为了克服这个难题，来自卡内基梅隆大学和Meta AI的作者花费了两年时间开发了一个通用的RoboAgent。他们的主要目标是开发一种高效的范例，可以在数据有限的情况下训练一个能够具备多种技能的通用智能体，并将这些技能推广应用于各种未知情境

用7500条轨迹数据训练，CMU、Meta让机器人达到全能的厅堂与厨房水平

RoboAgent 由以下模块化构成：

RoboPen - 一个采用通用硬件构建的分布式机器人基础设施，能够长期不间断运行；
RoboHive - 一个统一的框架，用于在模拟和真实世界操作中进行机器人学习；
RoboSet - 一个高质量的数据集，代表了各种场景中使用日常物品的多种技能；
MT-ACT - 一种高效的语言条件多任务离线模仿学习框架，通过在现有机器人经验的基础上创建多样的语义增强集合，从而扩大了离线数据集，并采用了一种新颖的策略架构和高效的动作表示方法，在有限的数据预算下恢复出性能良好的策略。

RoboSet：多技能、多任务、多模态数据集

构建一个能够在许多不同情境下推广的机器人智能体，首先需要一个具有广泛覆盖范围的数据集。鉴于扩大规模的努力通常会有所帮助（例如，RT-1 展示了约 130,000 条机器人轨迹的结果），因此需要在数据集有限的情况下理解学习系统的效率和泛化原则，低数据情境往往会导致过拟合。因此，作者的主要目标是开发一种强大的范例，可以在低数据情境下学习可推广的通用策略，同时避免过拟合问题。

用7500条轨迹数据训练，CMU、Meta让机器人达到全能的厅堂与厨房水平

机器人学习中的技能与数据全景是一个重要的领域。在机器人学习中，技能是指机器人通过学习和训练获得的能力，可以用于执行特定的任务。这些技能的发展离不开大量的数据支持。数据是机器人学习的基础，通过分析和处理数据，机器人可以从中学习并改进自己的技能。因此，技能和数据是机器人学习中不可或缺的两个方面。只有通过不断学习和获取新的数据，机器人才能不断提升自己的技能水平，并在各种任务中展现出更高的智能和效率

用于训练 RoboAgent 的数据集 RoboSet（MT-ACT）仅包括 7,500 条轨迹（比 RT-1 的数据少 18 倍）。该数据集提前收集并保持冻结状态。该数据集由在多个任务和场景中使用商品机器人硬件（Franka-Emika 机器人配备 Robotiq 夹具）进行人类遥操作收集的高质量轨迹组成。RoboSet（MT-ACT）在几个不同的情境下稀疏地涵盖了 12 种独特技能。数据通过将日常厨房活动（如泡茶、烘焙）分为不同的子任务来收集，每个子任务代表一个独特的技能。数据集包括常见的拾取 - 放置技能，还包括接触丰富的技能，如擦拭、盖盖子，以及涉及关节物体的技能。重写后的内容：用于训练 RoboAgent 的数据集 RoboSet（MT-ACT）仅包括 7,500 条轨迹（比 RT-1 的数据少 18 倍）。该数据集提前收集并保持冻结状态。该数据集由在多个任务和场景中使用商品机器人硬件（Franka-Emika 机器人配备 Robotiq 夹具）进行人类遥操作收集的高质量轨迹组成。RoboSet（MT-ACT）在几个不同的情境下稀疏地涵盖了 12 种独特技能。数据通过将日常厨房活动（如泡茶、烘焙）分为不同的子任务来收集，每个子任务代表一个独特的技能。数据集包括常见的拾取 - 放置技能，还包括接触丰富的技能，如擦拭、盖盖子，以及涉及关节物体的技能

用7500条轨迹数据训练，CMU、Meta让机器人达到全能的厅堂与厨房水平

MT-ACT：多任务动作分块 Transformer

RoboAgent基于两个关键洞察在低数据情境下学习通用策略。它利用基础模型的世界先验知识以避免模式崩溃，并采用了一种新颖的高效策略表示，能够摄取高度多模态的数据

需要进行改写的内容是：1、语义增强：RoboAgent通过对RoboSet（MT-ACT）进行语义增强，将来自现有基础模型的世界先验知识注入其中。由此产生的数据集将机器人的经验与世界先验知识相结合，而无需额外的人力/机器人成本。使用SAM对目标物体进行分割，并在形状、颜色、纹理变化方面对其进行语义增强。改写后的内容：1、语义增强：RoboAgent通过对RoboSet（MT-ACT）进行语义增强，将来自现有基础模型的世界先验知识注入其中。这样，机器人的经验和世界先验知识就能结合起来，而不需要额外的人力/机器人成本。使用SAM对目标物体进行分割，并在形状、颜色、纹理变化方面进行语义增强

2、高效策略表示：由此产生的数据集是严重多模态的，包含丰富多样的技能、任务和情景。我们将动作分块方法应用于多任务设置，开发了一种新颖的高效策略表示——MT-ACT，能够在数据量较少的情况下获取高度多模态的数据集，同时避免过拟合问题

用7500条轨迹数据训练，CMU、Meta让机器人达到全能的厅堂与厨房水平

实验结果

RoboAgent的样本效率比现有方法更高

下图比较了作者提出的MT-ACT策略表示与几种模仿学习架构。作者仅使用了包括物体姿态变化和部分光照变化的环境变化。与之前的研究相似，作者将此归于L1泛化。从RoboAgent的结果可以清楚地看到，使用动作分块来建模子轨迹明显优于所有基准方法，从而更证明了作者提出的策略表示在样本效率学习方面的有效性

用7500条轨迹数据训练，CMU、Meta让机器人达到全能的厅堂与厨房水平

RoboAgent 在多个抽象层面上表现出色

用7500条轨迹数据训练，CMU、Meta让机器人达到全能的厅堂与厨房水平

在下图中展示了作者对不同泛化层次上测试方法的结果。同时，还通过可视化展示了泛化级别，其中L1代表物体姿态变化，L2代表多样的桌面背景和干扰因素，L3代表新颖的技能-物体组合。接下来，作者展示了每种方法在这些泛化层次上的表现。在严格的评估研究中，MT-ACT在比其他方法中表现显著优异，特别是在更困难的泛化层次（L3）上

用7500条轨迹数据训练，CMU、Meta让机器人达到全能的厅堂与厨房水平

RoboAgent 具有高度的可扩展性

作者对RoboAgent在不断增加的语义增强级别下的表现进行了评估，并在一个包含5个技能的活动中进行了评估。从下图可以看出，随着数据的增加（即每帧增强的数量增加），在所有泛化级别上的性能都有显著提升。尤其值得注意的是，在更难的任务（L3泛化）中，性能提升更为明显

用7500条轨迹数据训练，CMU、Meta让机器人达到全能的厅堂与厨房水平

RoboAgent 能够展示其技能在各种不同的活动中

用7500条轨迹数据训练，CMU、Meta让机器人达到全能的厅堂与厨房水平

用7500条轨迹数据训练，CMU、Meta让机器人达到全能的厅堂与厨房水平

用7500条轨迹数据训练，CMU、Meta让机器人达到全能的厅堂与厨房水平

好了，本文到此结束，带大家了解了《用7500条轨迹数据训练，CMU、Meta让机器人达到全能的厅堂与厨房水平》，希望本文对你有所帮助！关注golang学习网公众号，给大家分享更多科技周边知识！

机器人训练

版本声明

本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除

为什么人工智能需要在“边缘”进行部署

为什么人工智能需要在“边缘”进行部署

上一篇: 为什么人工智能需要在“边缘”进行部署

让千行百业轻松使用AI，钉钉推出智能化底座AI PaaS开放平台

下一篇: 让千行百业轻松使用AI，钉钉推出智能化底座AI PaaS开放平台

查看更多

最新文章

科技周边 · 人工智能 | 2分钟前 |

文心一言官网入口及网页版链接

415浏览收藏
科技周边 · 人工智能 | 27分钟前 | 天宫AI

天宫AI写作功能使用技巧详解

446浏览收藏
科技周边 · 人工智能 | 31分钟前 |

Midjourney固定角色脸型技巧分享

125浏览收藏
科技周边 · 人工智能 | 42分钟前 | 豆包手机助手

豆包手机助手多设备绑定教程

310浏览收藏
科技周边 · 人工智能 | 43分钟前 |

豆包AI年终总结怎么搭框架？

499浏览收藏
科技周边 · 人工智能 | 57分钟前 |

AI生成建筑外观与户型图教程

395浏览收藏
科技周边 · 人工智能 | 1小时前 |

AI生成内容不合理怎么处理？避坑指南

497浏览收藏
科技周边 · 人工智能 | 1小时前 |

Clawdbot账号被锁怎么申诉找回

324浏览收藏
科技周边 · 人工智能 | 2小时前 |

INMOGoLite连WiFi看直播教程

407浏览收藏
科技周边 · 人工智能 | 2小时前 |

DeepSeek逻辑图渲染与Mermaid代码教学

168浏览收藏
科技周边 · 人工智能 | 2小时前 |

ChatGPT中文版下载与使用教程

230浏览收藏
科技周边 · 人工智能 | 2小时前 |

豆包AI生成思维导图方法解析

306浏览收藏

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

ChatExcel酷表

ChatExcel酷表是由北京大学团队打造的Excel聊天机器人，用自然语言操控表格，简化数据处理，告别繁琐操作，提升工作效率！适用于学生、上班族及政府人员。

3931次使用
Any绘本

探索Any绘本（anypicturebook.com/zh），一款开源免费的AI绘本创作工具，基于Google Gemini与Flux AI模型，让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景，零门槛，高自由度，技术透明，本地可控。

4263次使用
可赞AI

可赞AI，AI驱动的办公可视化智能工具，助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析，还是一键生成专业图表、脑图、知识卡片，可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景，大幅提升办公效率，降低专业门槛，是您提升工作效率的得力助手。

4146次使用
星月写作

星月写作是国内首款聚焦中文网络小说创作的AI辅助工具，解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配，助力新人快速上手，资深作者效率倍增。

5387次使用
MagicLight

MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台，专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型，保障角色、风格、场景高度一致性，让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销，助您轻松实现创意落地与商业化。

4518次使用

查看更多

相关文章

GPT-4王者加冕！读图做题性能炸天，凭自己就能考上斯坦福

2023-04-25 501浏览
单块V100训练模型提速72倍！尤洋团队新成果获AAAI 2023杰出论文奖

2023-04-24 501浏览
ChatGPT 真的会接管世界吗？

2023-04-13 501浏览
VR的终极形态是「假眼」？Neuralink前联合创始人掏出新产品：科学之眼！

2023-04-30 501浏览
实现实时制造可视性优势有哪些？

2023-04-15 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码