多个华人学者参与的详细综述报告:大型机器人的全景概览
哈喽!大家好,很高兴又见面了,我是golang学习网的一名作者,今天由我给大家带来一篇《多个华人学者参与的详细综述报告:大型机器人的全景概览》,本文主要会讲到等等知识点,希望大家一起学习进步,也欢迎大家关注、点赞、收藏、转发! 下面就一起来看看吧!
大模型的出色能力有目共睹,而如果将它们整合进机器人,则有望让机器人拥有一个更加智能的大脑,为机器人领域带来新的可能性,比如自动驾驶、家用机器人、工业机器人、辅助机器人、医疗机器人、现场机器人和多机器人系统。
预训练的大型语言模型(LLM)、大型视觉 - 语言模型(VLM)、大型音频 - 语言模型(ALM)和大型视觉导航模型(VNM)可以被用于更好地处理机器人领域的各种任务。将基础模型整合进机器人是一个快速发展的领域,机器人社区最近已经开始探索将这些大模型用于需要重新书写的是:知觉、预测、规划和控制等机器人领域。
最近,一支由斯坦福大学、普林斯顿大学以及英伟达和Google DeepMind等多家企业组成的联合研究团队发布了一篇综述报告,总结了机器人研究领域中基础模型的发展情况和未来挑战
论文地址:https://arxiv.org/pdf/2312.07843.pdf
重写的内容是:论文库:https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models
团队成员中有很多我们熟悉的华人学者,包括朱玉可、宋舒然、吴佳俊、卢策吾等。
广泛使用大规模数据进行预训练的基础模型,在微调后可以适用于各种下游任务。这些基础模型在视觉和语言处理领域取得了重大突破,其中包括 BERT、GPT-3、GPT-4、CLIP、DALL-E和PaLM-E等相关模型
在基础模型出现之前,用于机器人的传统深度学习模型的训练使用的都是为不同任务收集的有限数据集。相反,基础模型则是会使用大范围多样化数据进行预训练,在其他领域(比如自然语言处理、计算机视觉和医疗保健)的应用证明了其适应能力、泛化能力和总体性能表现。最终,基础模型也有望在机器人领域展现出自己的潜力。图 1 展示了基础模型在机器人领域的概况。
相比于针对特定任务的模型,从基础模型迁移知识有可能减少训练时间和计算资源。尤其是在机器人相关领域,多模态基础模型可以将从不同传感器收集的多模态异构数据融合和对齐成紧凑的紧凑同质表征,而这正是机器人理解和推理所需的。其学习到的表征可望用于自动化技术栈的任何部分,包括需要重新书写的是:知觉、决策和控制。
不仅如此,基础模型还能提供零样本学习能力,也就是让 AI 系统有能力在没有任何示例或针对性训练的前提下执行任务。这能让机器人将所学知识泛化到全新的用例,增强机器人在非结构化环境中的适应能力和灵活性。
将基础模型整合进机器人系统能提升机器人需要重新书写的是:知觉环境以及与环境交互的能力,有可能实现上下文需要重新书写的是:知觉型机器人系统。
举个例子,在需要重新书写的是:知觉领域,大型视觉 - 语言模型(VLM)能够学习视觉和文本数据之间的关联,从而具备跨模态理解能力,从而辅助零样本图像分类、零样本目标检测和 3D 分类等任务。再举个例子,3D 世界中的语言定基(language grounding,即将 VLM 的上下文理解与 3D 现实世界对齐)可以通过将话语与 3D 环境中的具体对象、位置或动作关联起来,从而增强机器人的空间需要重新书写的是:知觉能力。
在决策或规划领域,研究发现 LLM 和 VLM 可以辅助机器人规范涉及高层规划的任务。
通过利用与操作、导航和交互有关的语言线索,机器人可以执行更加复杂的任务。比如对于模仿学习和强化学习等机器人策略学习技术,基础模型似乎有能力提升数据效率和上下文理解能力。特别是语言驱动的奖励可通过提供经过塑造的奖励来引导强化学习智能体。
另外,研究者也已经在利用语言模型来为策略学习技术提供反馈。一些研究表明,VLM 模型的视觉问答(VQA)能力可以用于机器人用例。举个例子,已有研究者使用 VLM 来回答与视觉内容有关的问题,从而帮助机器人完成任务。另外,也有研究者使用 VLM 来帮助数据标注,为视觉内容生成描述标签。
尽管基础模型在视觉和语言处理方面具备变革性的能力,但对于现实世界的机器人任务来说,基础模型的泛化和微调依然颇具挑战性。
这些挑战包括:
1) 数据缺乏:如何获取互联网规模级的数据来支持机器人操作、定位、导航等任务,并且如何利用这些数据进行自我监督训练;
2) 巨大的差异性:如何应对物理环境、实体机器人平台和潜在的机器人任务的巨大多样性,同时保持基础模型所需的通用性;
3) 不确定性的量化问题:如何解决实例层面的不确定性(比如语言歧义或 LLM 幻觉)、分布层面的不确定性和分布移位问题,尤其是闭环的机器人部署引起的分布移位问题。
4) 安全评估:如何在部署之前、更新过程中、工作过程中对基于基础模型的机器人系统进行严格测试。
5) 实时性能:如何应对某些基础模型推理时间长的问题 —— 这会有碍基础模型在机器人上的部署,以及如何加速基础模型的推理 —— 这是在线决策所需的。
这篇综述论文总结了目前机器人领域中基础模型的使用情况。研究人员调查了当前的方法、应用和挑战,并提出了未来研究方向来解决这些挑战。他们还指出了将基础模型用于实现机器人自主能力可能存在的潜在风险
基础模型背景知识
基础模型具有数以十亿计的参数,而且使用互联网级别的大规模数据进行预训练。训练如此庞大和复杂的模型需要非常高昂的成本。获取、处理和管理数据的成本也会很高。其训练过程需要大量的计算资源,需要使用GPU或TPU等专用硬件,并且还需要用于模型训练的软件和基础设施,这都需要资金投入。此外,基础模型的训练时间也很长,这也会导致高成本。因此,这些模型通常作为可插拔模块使用,即将基础模型整合到各种应用中,而无需进行大量的定制工作
表 1 给出了常用基础模型的细节。
本节将重点介绍LLM、视觉Transformer、VLM、具身多模态语言模型和视觉生成模型。此外,还将介绍用于训练基础模型的不同训练方法
他们首先介绍了一些相关的术语和数学知识,其中涉及 token 化、生成模型、判别模型、Transformer 架构、自回归模型、掩码式自动编码、对比学习和扩散模型。
然后他们介绍了大型语言模型(LLM)的示例和历史背景。之后重点说明了视觉 Transformer、多模态视觉 - 语言模型(VLM)、具身多模态语言模型、视觉生成模型。
机器人研究
这一节关注的是机器人决策、规划和控制。在这一领域,大型语言模型(LLM)和视觉语言模型(VLM)都有潜力用于增强机器人的能力。举个例子,LLM 可以促进任务规范过程,让机器人可以接收和解读来自人类的高级指令。
VLM 也有望为这一领域做出贡献。VLM 擅长分析视觉数据。要让机器人做出明智的决策和执行复杂的任务,视觉理解能力是至关重要的。现在,机器人可以使用自然语言线索来增强自己执行操作、导航和交互相关任务的能力。
基于目标的视觉 - 语言策略学习(不管是通过模仿学习还是强化学习)有望通过基础模型获得提升。语言模型还能为策略学习技术提供反馈。这个反馈循环有助于持续提升机器人的决策能力,因为机器人可以根据从 LLM 收到的反馈优化自己的行动。
这一节关注的是 LLM 和 VLM 在机器人决策领域的应用。
这一节分为六部分。其中第一部分介绍了用于决策和控制和机器人策略学习,其中包括基于语言的模仿学习和语言辅助的强化学习。
第二部分是基于目标的语言 - 图像价值学习。
第三部分介绍了使用大型语言模型来规划机器人任务,其中包括通过语言指令来说明任务以及使用语言模型生成任务规划的代码。
第四部分是用于决策的上下文学习(ICL)。
下一个要介绍的是机器人变形金刚
第六部分则是开放词汇库的机器人导航和操作。
表 2 给出了一些特定于机器人的基础模型,其中报告了模型的大小和架构、预训练任务、推理时间和硬件设置。
需要重新书写的是:知觉
与周围环境交互的机器人会接收不同模态的感官信息,比如图像、视频、音频和语言。这种高维数据对机器人在环境中的理解、推理和互动而言至关重要。基础模型可以将这些高维输入转换成容易解读和操作的抽象结构化表征。尤其是多模态基础模型可让机器人将不同感官的输入整合成一个统一的表征,其中包含语义、空间、时间和可供性信息。这些多模态模型需要跨模态的交互,通常需要对齐不同模态的元素来确保一致性和互相对应。比如图像描述任务就需要文本和图像数据对齐。
这一节将关注与机器人需要重新书写的是:知觉相关的一系列任务,这些任务可使用基础模型来对齐模态,从而获得提升。其中的重点是视觉和语言。
这一节分为五部分,首先是开放词汇库的目标检测和 3D 分类,然后是开放词汇库的语义分割,接下来是开放词汇库的 3D 场景和目标表征,再然后是学习到的功能可供性,最后是预测模型。
具身 AI
近段时间,有研究表明 LLM 可以成功用于具身 AI 领域,其中「具身(embodied)」通常是指在世界模拟器中的虚拟具身,而非具有实体机器人身体。
这方面已经出现了一些有趣的框架、数据集和模型。其中尤其值得一提的是将 Minecraft 游戏用作训练具身智能体的平台。举个例子,Voyager 使用了 GPT-4 来引导智能体探索 Minecraft 环境。其能通过上下文 prompt 设计来与 GPT-4 互动,而无需对 GPT-4 的模型参数进行微调。
强化学习是机器人学习领域的一个重要研究方向,研究者们正在尝试使用基础模型来设计奖励函数以优化强化学习
对于机器人执行高层规划,研究者们一直在探索使用基础模型来辅助。此外,还有一些研究者试图将基于思维链的推理和动作生成方法应用于具身智能体
挑战和未来方向
这一节会给出将基础模型用于机器人的相关挑战。该团队也会探索可望解决这些挑战的未来研究方向。
第一个挑战是克服训练用于机器人的基础模型时的数据稀缺问题,其中包括:
1. 使用未经结构化的游戏数据和未标记的人类视频来拓展机器人学习
2. 使用图像修复(Inpainting)来增强数据
3. 克服训练 3D 基础模型时的缺少 3D 数据的问题
4. 通过高保真模拟来生成合成数据
5. 使用 VLM 进行数据增强 使用 VLM 进行数据增强是一种有效的方法
6. 机器人的物理技能受限于技能的分布
第二个挑战则与实时性能有关,其中关键的是基础模型的推理时间。
第三个挑战涉及到多模态表征的局限性。
第四个挑战则是如何量化不同层级的不确定性的问题,比如实例层面和分布层面,另外还涉及到如何校准以及应对分布移位的难题。
第五个挑战涉及到安全评估,包括部署之前的安全测试和运行时的监控和对分布外情况的检测。
第六个挑战则涉及到如何选择:使用现有的基础模型还是为机器人构建新的基础模型?
第七个挑战涉及到机器人设置中的高度可变性。
第八个挑战是如何在机器人设置中进行基准评估以及保证可复现性。
更多研究细节,可参考原论文。
终于介绍完啦!小伙伴们,这篇关于《多个华人学者参与的详细综述报告:大型机器人的全景概览》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布科技周边相关知识,快来关注吧!

- 上一篇
- 恢复adb.exe的步骤

- 下一篇
- edge浏览器无法正常加载网页
-
- 科技周边 · 人工智能 | 12分钟前 |
- 用豆包A/生成的表情包如何赚钱
- 369浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 理想L系列智能焕新版5月8日发布L7/8/9齐上新
- 368浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- DeepSeek+Triop:AI手绘到3D建模全程解析
- 136浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 |
- 奔驰纯电新车曝光:仅800V快充或慢充
- 319浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 |
- 全新日产帕拉丁黑武士版上市,17.28万起
- 396浏览 收藏
-
- 科技周边 · 人工智能 | 5小时前 |
- 1-2月乘用车摄像头装机量破1300万增14.6%
- 350浏览 收藏
-
- 科技周边 · 人工智能 | 5小时前 |
- 谷歌升级Gemini2.5Pro,强化多模态AI
- 263浏览 收藏
-
- 科技周边 · 人工智能 | 5小时前 |
- 即梦ai添加时间戳教程即梦ai日期水印设置攻略
- 448浏览 收藏
-
- 科技周边 · 人工智能 | 7小时前 |
- 免费AI证件照生成网站全方位测评
- 229浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- 4月车市火爆:以旧换新激增,品牌销量创新高
- 182浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 魔匠AI
- SEO摘要魔匠AI专注于高质量AI学术写作,已稳定运行6年。提供无限改稿、选题优化、大纲生成、多语言支持、真实参考文献、数据图表生成、查重降重等全流程服务,确保论文质量与隐私安全。适用于专科、本科、硕士学生及研究者,满足多语言学术需求。
- 12次使用
-
- PPTFake答辩PPT生成器
- PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
- 27次使用
-
- Lovart
- SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
- 27次使用
-
- 美图AI抠图
- 美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
- 35次使用
-
- PetGPT
- SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
- 36次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览