当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 用MoE横扫99个子任务！浙大等提出全新通用机器人策略GeRM

用MoE横扫99个子任务！浙大等提出全新通用机器人策略GeRM

来源：51CTO.COM 2024-04-23 08:03:36 0浏览收藏

欢迎各位小伙伴来到golang学习网，相聚于此都是缘哈哈哈！今天我给大家带来《用MoE横扫99个子任务！浙大等提出全新通用机器人策略GeRM》，这篇文章主要讲到等等知识，如果你对科技周边相关的知识非常感兴趣或者正在自学，都可以关注我，我会持续更新相关文章！当然，有什么建议也欢迎在评论留言提出！一起学习！

多任务机器人学习在应对多样化和复杂情景方面具有重要意义。然而，当前的方法受到性能问题和收集训练数据集的困难的限制。

这篇论文提出了GeRM（通用机器人模型），研究人员利用离线强化学习来优化数据利用策略，从演示和次优数据中学习，从而超越了人类演示的局限性。

用MoE横扫99个子任务！浙大等提出全新通用机器人策略GeRM

作者：宋文轩，赵晗，丁鹏翔，崔灿，吕尚可，范亚凝，王东林

单位：西湖大学、浙江大学

论文地址：https://arxiv.org/abs/2403.13358

项目地址：https://songwxuan.github.io/GeRM/

之后采用基于Transformer的视觉-语言-动作模型来处理多模态输入并输出动作。

通过引入专家混合结构，GeRM实现了更快的推理速度和更高的整体模型容量，从而解决了强化学习参数量受限的问题，提高了多任务学习中的模型性能，同时控制了计算成本。

通过一系列实验证明，GeRM在所有任务中均优于其他方法，同时验证了其在训练和推理过程中的效率。

此外，研究人员还提供了QUARD-Auto数据集以支持训练，该数据集的构建遵循文中提出的数据自动化收集的新范式，该方法可以降低收集机器人数据的成本，推动多任务学习社区的进步。

主要贡献：

1. 首次提出了用于四足强化学习的混合专家模型，其在混合质量的数据上进行训练，从而具备习得最优策略的潜力。

2. 与现有方法相比，GeRM在只激活自身1/2参数的情况下展现出更高的成功率，激活了涌现能力，同时在训练过程中展现了更优的数据利用策略。

3.提出了一个全自动机器人数据集收集的范式，并收集了一个大规模开源数据集。

方法

GeRM网络结构如图1所示，包含示范数据和失败数据的视觉-语言输入，分别经过编码器和tokenizer后输入到8层混合专家结构的decoder中，并生成动作token，最终转化为离散的机器人动作数据并通过底层策略部署到机器人上，此外我们用强化学习的方式进行训练。

用MoE横扫99个子任务！浙大等提出全新通用机器人策略GeRM

图1 GeRM网络结构图

GeRM Decoder是一个包含 Transformer Decoder架构模型，其中前馈网络（FFN）从一组 8 个不同的专家网络中选择。

在每一层，对于每一个标记，门控网络选择两个专家来处理token，并将它们的输出加权组合。

不同的专家擅长不同的任务/不同的动作维度，以解决不同场景中的问题，从而学习跨多个任务的通用模型。该架构扩大了网络参数量，同时保持计算成本基本不变。

用MoE横扫99个子任务！浙大等提出全新通用机器人策略GeRM

图2 Decoder结构图

我们提出了一个自动的范式来收集机器人多模态数据。通过这种方式，我们构建了一个大规模的机器人数据集QUARD-Auto，其中包含演示和次优数据的组合。它包括5个任务和99个子任务，总共有257k条轨迹。我们将进行开源以促进机器人社区发展。

用MoE横扫99个子任务！浙大等提出全新通用机器人策略GeRM

表1 数据集介绍

用MoE横扫99个子任务！浙大等提出全新通用机器人策略GeRM

图3 数据量统计

实验

我们进行了一系列全面而可靠的实验，涵盖了所有 99 个子任务，每个子任务进行了 400 条轨迹的精心测试。

如表1所示，GeRM在所有任务中具有最高的成功率。与 RT-1 和其他GeRM 的变体相比，它有效地从混合质量的数据中学习，优于其他方法，并在多任务中展现出优越的能力。与此同时，MoE 模块通过在推理时激活部分参数来平衡计算成本和性能。

用MoE横扫99个子任务！浙大等提出全新通用机器人策略GeRM

表2 多任务对比实验

GeRM表现出令人称赞的训练效率。与其他方法相比，GeRM 仅需极少的batch就获得了极低的Loss和较高的成功率，凸显了GeRM优化数据利用策略的能力。

用MoE横扫99个子任务！浙大等提出全新通用机器人策略GeRM

图4 成功率/Loss变化曲线

GeRM 在动态自适应路径规划方面展现出了涌现能力。如视频所示，四足机器人在初始位置视野受限，难以确定移动方向。为了避开障碍物，它随机选择向左转。

随后，在遇到错误的视觉输入后，机器人执行了大幅度的重新定向，以与原始视野之外的正确目标对齐。然后，它继续向目的地驶去，最终完成任务。

值得注意的是，这样的轨迹不属于我们的训练数据集分布之内。这表明 GeRM 在场景背景下的动态自适应路径规划方面具有涌现能力，即它能够根据视觉感知进行决策、规划未来路径，并根据需要改变下一步行动。

用MoE横扫99个子任务！浙大等提出全新通用机器人策略GeRM

图5 涌现能力

理论要掌握，实操不能落！以上关于《用MoE横扫99个子任务！浙大等提出全新通用机器人策略GeRM》的详细介绍，大家都掌握了吧！如果想要继续提升自己的能力，那么就来关注golang学习网公众号吧！

AI 模型

版本声明

本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除

在命令行上运行可执行文件没问题，但通过另一个程序运行会导致无响应

在命令行上运行可执行文件没问题，但通过另一个程序运行会导致无响应

上一篇: 在命令行上运行可执行文件没问题，但通过另一个程序运行会导致无响应

比亚迪护卫舰07荣耀版将于 3 月 18 日上市，预计增配降价

下一篇: 比亚迪护卫舰07荣耀版将于 3 月 18 日上市，预计增配降价

查看更多

最新文章

科技周边 · 人工智能 | 3小时前 |

AirTag常用场景设置全解析

348浏览收藏
科技周边 · 人工智能 | 3小时前 |

ChatGPT小组件显示问题解决方法

250浏览收藏
科技周边 · 人工智能 | 3小时前 |

豆包AI穿搭图生成教程分享

107浏览收藏
科技周边 · 人工智能 | 3小时前 |

豆包AI健身计划怎么制定？

358浏览收藏
科技周边 · 人工智能 | 4小时前 |

天工提升数据分析效率的方法解析

139浏览收藏
科技周边 · 人工智能 | 4小时前 |

豆包AI助力高效处理客诉与评论

151浏览收藏
科技周边 · 人工智能 | 4小时前 | 夸克AI 夸克AI大模型夸克ai搜索

夸克AI语音设置教程详解

493浏览收藏
科技周边 · 人工智能 | 4小时前 |

AI绘画负面提示词有哪些？

263浏览收藏
科技周边 · 人工智能 | 4小时前 |

豆包AI调用实时数据方法全解析

454浏览收藏
科技周边 · 人工智能 | 4小时前 |

AI生成广告语，免费营销文案工具推荐

322浏览收藏
科技周边 · 人工智能 | 4小时前 |

千问AI写情书技巧与感人范本

153浏览收藏
科技周边 · 人工智能 | 5小时前 | OpenAI

OpenAI工具入口与网页生成指南

322浏览收藏

资料下载

编程学习资料下载

精选编程（Golang、Python、Java、C++、JavaScript等）教程、电子书与示例源码，一键打包本地下载学习。

立即下载

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

ChatExcel酷表

ChatExcel酷表是由北京大学团队打造的Excel聊天机器人，用自然语言操控表格，简化数据处理，告别繁琐操作，提升工作效率！适用于学生、上班族及政府人员。

4114次使用
Any绘本

探索Any绘本（anypicturebook.com/zh），一款开源免费的AI绘本创作工具，基于Google Gemini与Flux AI模型，让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景，零门槛，高自由度，技术透明，本地可控。

4456次使用
可赞AI

可赞AI，AI驱动的办公可视化智能工具，助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析，还是一键生成专业图表、脑图、知识卡片，可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景，大幅提升办公效率，降低专业门槛，是您提升工作效率的得力助手。

4346次使用
星月写作

星月写作是国内首款聚焦中文网络小说创作的AI辅助工具，解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配，助力新人快速上手，资深作者效率倍增。

5828次使用
MagicLight

MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台，专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型，保障角色、风格、场景高度一致性，让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销，助您轻松实现创意落地与商业化。

4703次使用

查看更多

相关文章

GPT-4王者加冕！读图做题性能炸天，凭自己就能考上斯坦福

2023-04-25 501浏览
单块V100训练模型提速72倍！尤洋团队新成果获AAAI 2023杰出论文奖

2023-04-24 501浏览
ChatGPT 真的会接管世界吗？

2023-04-13 501浏览
VR的终极形态是「假眼」？Neuralink前联合创始人掏出新产品：科学之眼！

2023-04-30 501浏览
实现实时制造可视性优势有哪些？

2023-04-15 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码