当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 多个华人学者参与的详细综述报告：大型机器人的全景概览

多个华人学者参与的详细综述报告：大型机器人的全景概览

来源：机器之心 2024-01-26 15:02:41 0浏览收藏

哈喽！大家好，很高兴又见面了，我是golang学习网的一名作者，今天由我给大家带来一篇《多个华人学者参与的详细综述报告：大型机器人的全景概览》，本文主要会讲到等等知识点，希望大家一起学习进步，也欢迎大家关注、点赞、收藏、转发! 下面就一起来看看吧！

大模型的出色能力有目共睹，而如果将它们整合进机器人，则有望让机器人拥有一个更加智能的大脑，为机器人领域带来新的可能性，比如自动驾驶、家用机器人、工业机器人、辅助机器人、医疗机器人、现场机器人和多机器人系统。

预训练的大型语言模型（LLM）、大型视觉 - 语言模型（VLM）、大型音频 - 语言模型（ALM）和大型视觉导航模型（VNM）可以被用于更好地处理机器人领域的各种任务。将基础模型整合进机器人是一个快速发展的领域，机器人社区最近已经开始探索将这些大模型用于需要重新书写的是：知觉、预测、规划和控制等机器人领域。

最近，一支由斯坦福大学、普林斯顿大学以及英伟达和Google DeepMind等多家企业组成的联合研究团队发布了一篇综述报告，总结了机器人研究领域中基础模型的发展情况和未来挑战

大模型+机器人，详尽的综述报告来了，多位华人学者参与

论文地址：https://arxiv.org/pdf/2312.07843.pdf
重写的内容是：论文库：https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models

团队成员中有很多我们熟悉的华人学者，包括朱玉可、宋舒然、吴佳俊、卢策吾等。

广泛使用大规模数据进行预训练的基础模型，在微调后可以适用于各种下游任务。这些基础模型在视觉和语言处理领域取得了重大突破，其中包括 BERT、GPT-3、GPT-4、CLIP、DALL-E和PaLM-E等相关模型

在基础模型出现之前，用于机器人的传统深度学习模型的训练使用的都是为不同任务收集的有限数据集。相反，基础模型则是会使用大范围多样化数据进行预训练，在其他领域（比如自然语言处理、计算机视觉和医疗保健）的应用证明了其适应能力、泛化能力和总体性能表现。最终，基础模型也有望在机器人领域展现出自己的潜力。图 1 展示了基础模型在机器人领域的概况。

大模型+机器人，详尽的综述报告来了，多位华人学者参与

相比于针对特定任务的模型，从基础模型迁移知识有可能减少训练时间和计算资源。尤其是在机器人相关领域，多模态基础模型可以将从不同传感器收集的多模态异构数据融合和对齐成紧凑的紧凑同质表征，而这正是机器人理解和推理所需的。其学习到的表征可望用于自动化技术栈的任何部分，包括需要重新书写的是：知觉、决策和控制。

不仅如此，基础模型还能提供零样本学习能力，也就是让 AI 系统有能力在没有任何示例或针对性训练的前提下执行任务。这能让机器人将所学知识泛化到全新的用例，增强机器人在非结构化环境中的适应能力和灵活性。

将基础模型整合进机器人系统能提升机器人需要重新书写的是：知觉环境以及与环境交互的能力，有可能实现上下文需要重新书写的是：知觉型机器人系统。

举个例子，在需要重新书写的是：知觉领域，大型视觉 - 语言模型（VLM）能够学习视觉和文本数据之间的关联，从而具备跨模态理解能力，从而辅助零样本图像分类、零样本目标检测和 3D 分类等任务。再举个例子，3D 世界中的语言定基（language grounding，即将 VLM 的上下文理解与 3D 现实世界对齐）可以通过将话语与 3D 环境中的具体对象、位置或动作关联起来，从而增强机器人的空间需要重新书写的是：知觉能力。

在决策或规划领域，研究发现 LLM 和 VLM 可以辅助机器人规范涉及高层规划的任务。

通过利用与操作、导航和交互有关的语言线索，机器人可以执行更加复杂的任务。比如对于模仿学习和强化学习等机器人策略学习技术，基础模型似乎有能力提升数据效率和上下文理解能力。特别是语言驱动的奖励可通过提供经过塑造的奖励来引导强化学习智能体。

另外，研究者也已经在利用语言模型来为策略学习技术提供反馈。一些研究表明，VLM 模型的视觉问答（VQA）能力可以用于机器人用例。举个例子，已有研究者使用 VLM 来回答与视觉内容有关的问题，从而帮助机器人完成任务。另外，也有研究者使用 VLM 来帮助数据标注，为视觉内容生成描述标签。

尽管基础模型在视觉和语言处理方面具备变革性的能力，但对于现实世界的机器人任务来说，基础模型的泛化和微调依然颇具挑战性。

这些挑战包括：

1) 数据缺乏：如何获取互联网规模级的数据来支持机器人操作、定位、导航等任务，并且如何利用这些数据进行自我监督训练；

2) 巨大的差异性：如何应对物理环境、实体机器人平台和潜在的机器人任务的巨大多样性，同时保持基础模型所需的通用性；

3) 不确定性的量化问题：如何解决实例层面的不确定性（比如语言歧义或 LLM 幻觉）、分布层面的不确定性和分布移位问题，尤其是闭环的机器人部署引起的分布移位问题。

4) 安全评估：如何在部署之前、更新过程中、工作过程中对基于基础模型的机器人系统进行严格测试。

5) 实时性能：如何应对某些基础模型推理时间长的问题 —— 这会有碍基础模型在机器人上的部署，以及如何加速基础模型的推理 —— 这是在线决策所需的。

这篇综述论文总结了目前机器人领域中基础模型的使用情况。研究人员调查了当前的方法、应用和挑战，并提出了未来研究方向来解决这些挑战。他们还指出了将基础模型用于实现机器人自主能力可能存在的潜在风险

基础模型背景知识

基础模型具有数以十亿计的参数，而且使用互联网级别的大规模数据进行预训练。训练如此庞大和复杂的模型需要非常高昂的成本。获取、处理和管理数据的成本也会很高。其训练过程需要大量的计算资源，需要使用GPU或TPU等专用硬件，并且还需要用于模型训练的软件和基础设施，这都需要资金投入。此外，基础模型的训练时间也很长，这也会导致高成本。因此，这些模型通常作为可插拔模块使用，即将基础模型整合到各种应用中，而无需进行大量的定制工作

表 1 给出了常用基础模型的细节。

大模型+机器人，详尽的综述报告来了，多位华人学者参与

本节将重点介绍LLM、视觉Transformer、VLM、具身多模态语言模型和视觉生成模型。此外，还将介绍用于训练基础模型的不同训练方法

他们首先介绍了一些相关的术语和数学知识，其中涉及 token 化、生成模型、判别模型、Transformer 架构、自回归模型、掩码式自动编码、对比学习和扩散模型。

然后他们介绍了大型语言模型（LLM）的示例和历史背景。之后重点说明了视觉 Transformer、多模态视觉 - 语言模型（VLM）、具身多模态语言模型、视觉生成模型。

机器人研究

这一节关注的是机器人决策、规划和控制。在这一领域，大型语言模型（LLM）和视觉语言模型（VLM）都有潜力用于增强机器人的能力。举个例子，LLM 可以促进任务规范过程，让机器人可以接收和解读来自人类的高级指令。

VLM 也有望为这一领域做出贡献。VLM 擅长分析视觉数据。要让机器人做出明智的决策和执行复杂的任务，视觉理解能力是至关重要的。现在，机器人可以使用自然语言线索来增强自己执行操作、导航和交互相关任务的能力。

基于目标的视觉 - 语言策略学习（不管是通过模仿学习还是强化学习）有望通过基础模型获得提升。语言模型还能为策略学习技术提供反馈。这个反馈循环有助于持续提升机器人的决策能力，因为机器人可以根据从 LLM 收到的反馈优化自己的行动。

这一节关注的是 LLM 和 VLM 在机器人决策领域的应用。

这一节分为六部分。其中第一部分介绍了用于决策和控制和机器人策略学习，其中包括基于语言的模仿学习和语言辅助的强化学习。

第二部分是基于目标的语言 - 图像价值学习。

第三部分介绍了使用大型语言模型来规划机器人任务，其中包括通过语言指令来说明任务以及使用语言模型生成任务规划的代码。

第四部分是用于决策的上下文学习（ICL）。

下一个要介绍的是机器人变形金刚

第六部分则是开放词汇库的机器人导航和操作。

表 2 给出了一些特定于机器人的基础模型，其中报告了模型的大小和架构、预训练任务、推理时间和硬件设置。

大模型+机器人，详尽的综述报告来了，多位华人学者参与

需要重新书写的是：知觉

与周围环境交互的机器人会接收不同模态的感官信息，比如图像、视频、音频和语言。这种高维数据对机器人在环境中的理解、推理和互动而言至关重要。基础模型可以将这些高维输入转换成容易解读和操作的抽象结构化表征。尤其是多模态基础模型可让机器人将不同感官的输入整合成一个统一的表征，其中包含语义、空间、时间和可供性信息。这些多模态模型需要跨模态的交互，通常需要对齐不同模态的元素来确保一致性和互相对应。比如图像描述任务就需要文本和图像数据对齐。

这一节将关注与机器人需要重新书写的是：知觉相关的一系列任务，这些任务可使用基础模型来对齐模态，从而获得提升。其中的重点是视觉和语言。

这一节分为五部分，首先是开放词汇库的目标检测和 3D 分类，然后是开放词汇库的语义分割，接下来是开放词汇库的 3D 场景和目标表征，再然后是学习到的功能可供性，最后是预测模型。

具身 AI

近段时间，有研究表明 LLM 可以成功用于具身 AI 领域，其中「具身（embodied）」通常是指在世界模拟器中的虚拟具身，而非具有实体机器人身体。

这方面已经出现了一些有趣的框架、数据集和模型。其中尤其值得一提的是将 Minecraft 游戏用作训练具身智能体的平台。举个例子，Voyager 使用了 GPT-4 来引导智能体探索 Minecraft 环境。其能通过上下文 prompt 设计来与 GPT-4 互动，而无需对 GPT-4 的模型参数进行微调。

强化学习是机器人学习领域的一个重要研究方向，研究者们正在尝试使用基础模型来设计奖励函数以优化强化学习

对于机器人执行高层规划，研究者们一直在探索使用基础模型来辅助。此外，还有一些研究者试图将基于思维链的推理和动作生成方法应用于具身智能体

挑战和未来方向

这一节会给出将基础模型用于机器人的相关挑战。该团队也会探索可望解决这些挑战的未来研究方向。

第一个挑战是克服训练用于机器人的基础模型时的数据稀缺问题，其中包括：

1. 使用未经结构化的游戏数据和未标记的人类视频来拓展机器人学习

2. 使用图像修复（Inpainting）来增强数据

3. 克服训练 3D 基础模型时的缺少 3D 数据的问题

4. 通过高保真模拟来生成合成数据

5. 使用 VLM 进行数据增强使用 VLM 进行数据增强是一种有效的方法

6. 机器人的物理技能受限于技能的分布

第二个挑战则与实时性能有关，其中关键的是基础模型的推理时间。