机器人的基础模型:目前的进展如何了?
科技周边不知道大家是否熟悉?今天我将给大家介绍《机器人的基础模型:目前的进展如何了?》,这篇文章主要会讲到等等知识点,如果你在看完本篇文章后,有更好的建议或者发现哪里有问题,希望大家都能积极评论指出,谢谢!希望我们能一起加油进步!
机器人是一种拥有无限潜力的技术,尤其在智能技术的支持下。最近,一些具有革命性应用的大型模型被认为可能成为机器人的智能大脑,能够帮助机器人感知和理解世界,并做出决策和规划。最近,由CMU的Yonatan Bisk和Google DeepMind的夏斐(Fei Xia)领导的一个联合团队发布了一篇综述报告,介绍了基础模型在机器人领域的应用和发展情况。
人类一直以来都梦想着开发一种机器人,它能够自主地适应不同的环境。然而,实现这个梦想是一条漫长而充满挑战的道路。
以前,机器人的感知系统通常使用传统的深度学习方法,这需要大量标注数据来训练监督学习模型。然而,通过众包方式标注大型数据集的成本非常高昂。
另外,经典的监督学习方法在泛化能力上存在一定的限制。为了将这些训练好的模型应用到具体的场景或任务中,通常需要进行领域适应技术的精心设计,这往往需要进一步的数据收集和标注。同样,传统的机器人规划和控制方法也需要对环境、智能体自身以及其他智能体的动态进行精确建模。这些模型通常是针对特定的环境或任务而构建的,当情况发生变化时,就需要重新构建模型。这表明经典模型的迁移性能也是有限的。
事实上,对于很多用例,构建有效模型的成本要么太高,要么完全无法办到。尽管基于深度(强化)学习的运动规划和控制方法有助于缓解这些问题,但它们仍旧会受到分布移位(distribution shift)和泛化能力降低的影响。
虽然在开发通用型机器人系统上正面临诸多挑战,但自然语言处理(NLP)和计算机视觉(CV)领域近来却进展迅猛,其中包括用于 NLP 的大型语言模型(LLM)、用于高保真图像生成的扩散模型、用于零样本 / 少样本生成等 CV 任务的能力强大的视觉模型和视觉语言模型。
所谓的「基础模型(foundation model)」其实就是大型预训练模型(LPTM)。它们具备强大的视觉和语言能力。近来这些模型也已经在机器人领域得到应用,并有望赋予机器人系统开放世界感知、任务规划甚至运动控制能力。除了将现有的视觉和 / 或语言基础模型用于机器人领域,也有研究团队正针对机器人任务开发基础模型,比如用于操控的动作模型或用于导航的运动规划模型。这些机器人基础模型展现出了强大的泛化能力,能适应不同的任务甚至具身方案。
也有研究者直接将视觉 / 语言基础模型用于机器人任务,这展现出了将不同机器人模块融合成单一统一模型的可能性。
尽管视觉和语言基础模型在机器人领域前景可期,全新的机器人基础模型也正在开发中,但机器人领域仍有许多挑战难以解决。
从实际部署角度看,模型往往是不可复现的,无法泛化到不同的机器人形态(多具身泛化)或难以准确理解环境中的哪些行为是可行的(或可接受的)。此外大多数研究使用的都是基于 Transformer 的架构,关注的重点是对物体和场景的语义感知、任务层面的规划、控制。而机器人系统的其它部分则少有人研究,比如针对世界动态的基础模型或可以执行符号推理的基础模型。这些都需要跨领域泛化能力。
最后,我们也需要更多大型真实世界数据以及支持多样化机器人任务的高保真度模拟器。
这篇综述论文总结了机器人领域使用的基础模型,目标是理解基础模型能以怎样的方式帮助解决或缓解机器人领域的核心挑战。
论文地址:https://arxiv.org/pdf/2312.08782.pdf
在这篇综述中,研究者使用的「用于机器人的基础模型(foundation models for robotics)」这一术语涵盖两个方面:(1) 用于机器人的现有的(主要)视觉和语言模型,主要是通过零样本和上下文学习;(2) 使用机器人生成的数据专门开发和利用机器人基础模型,以解决机器人任务。他们总结了用于机器人的基础模型的相关论文中的方法,并对这些论文的实验结果进行了元分析(meta-analysis)。
图 1 展示了这篇综述报告的主要组成部分。
图 2 给出了这篇综述的整体结构。
预备知识
为了帮助读者更好地理解这篇综述的内容,该团队首先给出了一节预备知识内容。
他们首先将介绍机器人学的基础知识以及当前最佳技术。这里主要聚焦于基础模型时代之前机器人领域使用的方法。这里简单说明一下,详情参阅原论文。
- 机器人的主要组件可分为感知、决策和规划、动作生成三大部分。
- 该团队将机器人感知分为被动感知、主动感知和状态估计。
- 在机器人决策和规划部分,研究者分经典规划方法和基于学习的规划方法进行了介绍。
- 机器的动作生成也有经典控制方法和基于学习的控制方法。
- 接下来该团队又会介绍基础模型并主要集中在 NLP 和 CV 领域,涉及的模型包括:LLM、VLM、视觉基础模型、文本条件式图像生成模型。
机器人领域面临的挑战
这一节总结了典型机器人系统的不同模块所面临的五大核心挑战。图 3 给出了这五大挑战的分类情况。
1.泛化
机器人系统往往难以准确地感知和理解其环境。它们也没有能力将在一个任务上的训练成果泛化到另一个任务,这会进一步限制它们在真实世界中的实用性。此外,由于机器人硬件不同,将模型迁移用于不同形态的机器人也很困难。通过将基础模型用于机器人,可以部分地解决泛化问题。
而在不同机器人形态上泛化这样更进一步的问题还有待解答。
2.数据稀缺
为了开发出可靠的机器人模型,大规模的高质量数据至关重要。人们已经在努力尝试从现实世界收集大规模数据集,包括自动价值、机器人操作轨迹等。并且从人类演示收集机器人数据的成本很高。而由于任务和环境的多样性,在现实世界收集足够且广泛的数据的过程还会更加复杂。此外,在现实世界收集数据还会有安全方面的疑虑。
为了解决这些挑战,许多研究工作都尝试了在模拟环境中生成合成数据。这些模拟能提供真实感很强的虚拟世界,让机器人可以在接近真实的场景中学习和使用自己的技能。但是,使用模拟环境也有局限性,尤其是在物体的多样性方面,这使得所学到的技能难以直接用于真实世界情况。
另外,在现实世界中,大规模收集数据非常困难,而要收集到训练基础模型所使用的互联网规模级的图像 / 文本数据,那就更困难了。
一种颇具潜力的方法是协作式数据收集,即将不同实验室环境和机器人类型的数据收集到一起,如图 4a 所示。但是,该团队深度研究了 Open-X Embodiment Dataset,发现在数据类型可用性方面还存在一些局限性。
3.模型和原语要求
经典的规划和控制方法通常需要精心设计的环境和机器人模型。之前的基于学习的方法(如模仿学习和强化学习)是以端到端的方式训练策略,也就是直接根据感官输入获取控制输出,这样能避免构建和使用模型。这些方法能部分解决依赖明确模型的问题,但它们往往难以泛化用于不同的环境和任务。
这就引出了两个问题:(1) 怎么学习能很好泛化的与模型无关的策略?(2) 怎么学习好的世界模型,以便应用经典的基于模型的方法?
4.任务规范
为了得到通用型智能体,一大关键挑战是理解任务规范并将其根植于机器人对世界的当前理解中。通常而言,这些任务规范由用户提供,但用户只能有限地理解机器人的认知和物理能力的局限性。这会带来很多问题,不仅包括能为这些任务规范提供什么样的最佳实践,而且还有起草这些规范是否足够自然和简单。基于机器人对自身能力的理解,理解和解决任务规范中的模糊性也充满挑战。
5.不确定性和安全性
为了在现实世界中部署机器人,一大关键挑战是处理环境和任务规范中固有的不确定性。根据来源的不同,不确定性可以分为认知不确定性(由缺乏知识导致不确定)和偶然不确定性(环境中固有的噪声)。
不确定性量化(UQ)的成本可能会高得让研究和应用难以为继,也可能让下游任务无法被最优地解决。有鉴于基础模型大规模过度参数化的性质,为了在不牺牲模型泛化性能的同时实现可扩展性,提供能保留训练方案同时又尽可能不改变底层架构的 UQ 方法至关重要。设计能提供对自身行为的可靠置信度估计,并反过来智能地请求清晰说明反馈的机器人仍然是一个尚未解决的挑战。
近来虽有一些进展,但要确保机器人有能力学习经验,从而在全新环境中微调自己的策略并确保安全,这一点依然充满挑战。
当前研究方法概况
这一节总结了用于机器人的基础模型的当前研究方法。该团队将机器人领域使用的基础模型分成了两大类:用于机器人的基础模型和机器人基础模型(RFM)。
用于机器人的基础模型主要是指以零样本的方式将视觉和语言基础模型用于机器人,也就是说无需额外的微调或训练。机器人基础模型则可能使用视觉 - 语言预训练初始化来进行热启动和 / 或直接在机器人数据集上训练模型。
图 5 给出了分类详情
1.用于机器人的基础模型
这一小节关注的是视觉和语言基础模型在机器人领域的零样本应用。这主要包括将 VLM 以零样本方式部署到机器人感知应用中,将 LLM 的上下文学习能力用于任务层面和运动层面的规划以及动作生成。图 6 展示了一些代表性的研究工作。
2.机器人基础模型(RFM)
随着包含来自真实机器人的状态 - 动作对的机器人数据集的增长,机器人基础模型(RFM)类别同样变得越来越有可能成功。这些模型的特点是使用了机器人数据来训练模型解决机器人任务。
这一小节将总结和讨论不同类型的 RFM。首先是能在单一机器人模块中执行一类任务的 RFM,这也被称为单目标机器人基础模型。比如能生成控制机器人的低层级动作的 RFM 或可以生成更高层运动规划的模型。
之后会介绍能在多个机器人模块中执行任务的 RFM,也就是能执行感知、控制甚至非机器人任务的通用模型。
3.基础模型能怎样帮助解决机器人挑战?
前面列出了机器人领域面临的五大挑战。这一小节将介绍基础模型可以怎样帮助解决这些挑战。
所有与视觉信息相关的基础模型(如 VFM、VLM 和 VGM)都可用于机器人的感知模块。而 LLM 的功能更多样,可用于规划和控制。机器人基础模型(RFM)通常用于规划和动作生成模块。表 1 总结了解决不同机器人挑战的基础模型。
从表中可以看到,所有基础模型都擅长泛化各种机器人模块的任务。LLM 尤其擅长任务规范。另一方面,RFM 擅长应对动态模型的挑战,因为大多数 RFM 都是无模型方法。对于机器人感知来说,泛化能力和模型的挑战是相互耦合的,因为如果感知模型已经具有很好的泛化能力,就不需要获取更多数据来执行领域适应或额外微调。
另外,在安全挑战方面还缺乏研究,这会是一个重要的未来研究方向。
当前的实验和评估概况
这一节总结了当前研究成果的数据集、基准和实验。
1.数据集和基准
仅依靠从语言和视觉数据集学到的知识是存在局限的。正如一些研究成果表明的那样,摩擦力和重量等一些概念无法仅通过这些模态轻松学习到。
因此,为了让机器人智能体能更好地理解世界,研究社区不仅在适应来自语言和视觉领域的基础模型,也在推进开发用于训练和微调这些模型的大型多样化多模态机器人数据集。
目前这些工作分为两大方向:从现实世界收集数据以及从模拟世界收集数据再将其迁移到现实世界。每个方向都各有优劣。其中从现实世界收集的数据集包括 RoboNet、Bridge Dataset V1、Bridge-V2、. Language-Table、RT-1 等。而常用的模拟器有 Habitat、AI2THOR、Mujoco、AirSim、Arrival Autonomous Racing Simulator、Issac Gym 等。
2.对当前方法的评估分析
该团队的另一大贡献是对本综述报告中提到的论文中的实验进行了元分析,这可以帮助作者理清以下问题:
- 人们研究解决的是哪些任务?
- 训练模型使用了哪些数据集或模拟器?测试用的机器人平台有哪些?
- 研究社区使用了哪些基础模型?解决任务的效果如何?
- 这些方法中更常使用哪些基础模型?
表 2-7 和图 11 给出了分析结果。
该团队从中总结出了一些关键趋势:
- 研究社区对机器人操作任务的关注不平衡
- 泛化能力和稳健性需要提升
- 对低层动作的探索很有限
- 控制频率太低,无法部署在真实机器人中
- 缺乏统一的测试基准
讨论和未来方向
该团队总结了一些仍待解决的挑战和值得讨论的研究方向:
- 为机器人具身设定标准基础(grounding)
- 安全和不确定性
- 端到端方法和模块化方法是否无法兼容?
- 对具身的物理变化的适应能力
- 世界模型方法还是与模型无关的方法?
- 新型机器人平台和多感官信息
- 持续学习
- 标准化和可复现能力
文中关于人工智能,机器人,基础模型的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《机器人的基础模型:目前的进展如何了?》文章吧,也可关注golang学习网公众号了解相关技术文章。

- 上一篇
- 经过 7 年的努力,赛微电子成功实现了MEMS-OCS光链路交换器件的大规模生产

- 下一篇
- AI研究获悉印象派的启发,创作栩栩如生的3D模型
-
- 科技周边 · 人工智能 | 5小时前 | 亚马逊
- 亚马逊微软数据中心租赁进度放缓
- 192浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- 特斯拉股价开盘跌5.6%,Q1交付33万辆同比降13%
- 397浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 笔灵AI生成答辩PPT
- 探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
- 24次使用
-
- 知网AIGC检测服务系统
- 知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
- 41次使用
-
- AIGC检测-Aibiye
- AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
- 38次使用
-
- 易笔AI论文
- 易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
- 50次使用
-
- 笔启AI论文写作平台
- 笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
- 41次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览