当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 挖掘开源VLMs潜力,RoboFlamingo框架引领机器人视觉-语言操作

挖掘开源VLMs潜力,RoboFlamingo框架引领机器人视觉-语言操作

来源:51CTO.COM 2024-02-06 19:15:27 0浏览 收藏

积累知识,胜过积蓄金银!毕竟在科技周边开发的过程中,会遇到各种各样的问题,往往都是一些细节知识点还没有掌握好而导致的,因此基础知识点的积累是很重要的。下面本文《挖掘开源VLMs潜力,RoboFlamingo框架引领机器人视觉-语言操作》,就带大家讲解一下知识点,若是你对本文感兴趣,或者是想搞懂其中某个知识点,就请你继续往下看吧~

近年来,大模型的研究正在加速推进,它逐渐在各类任务上展现出多模态的理解和时间空间上的推理能力。机器人的各类具身操作任务天然就对语言指令理解、场景感知和时空规划等能力有着很高的要求,这自然引申出一个问题:能不能充分利用大模型能力,将其迁移到机器人领域,直接规划底层动作序列呢?

ByteDance Research利用开源的多模态语言视觉大模型OpenFlamingo开发了易用的RoboFlamingo机器人操作模型,只需单机训练。VLM可通过简单微调变成Robotics VLM,适用于语言交互的机器人操作任务。

在机器人操作数据集CALVIN上,OpenFlamingo进行了验证。实验结果表明,RoboFlamingo仅使用了1%带有语言标注的数据,就在一系列机器人操作任务中取得了SOTA的性能。随着RT-X数据集的开放,采用开源数据预训练的RoboFlamingo,并进行不同机器人平台的微调,有望成为一个简单有效的机器人大模型流程。论文还测试了不同策略头、不同训练范式和不同Flamingo结构的VLM在机器人任务上的微调表现,并得出了一些有趣的结论。

机器人领域首个开源视觉-语言操作大模型,RoboFlamingo框架激发开源VLMs更大潜能

  • 项目主页:https://roboflamingo.github.io
  • 代码地址:https://github.com/RoboFlamingo/RoboFlamingo
  • 论文地址:https://arxiv.org/abs/2311.01378

研究背景

机器人领域首个开源视觉-语言操作大模型,RoboFlamingo框架激发开源VLMs更大潜能

基于语言的机器人操作是具身智能领域的一个重要应用,涉及到多模态数据的理解和处理,包括视觉、语言和控制等。近年来,视觉语言基础模型(VLMs)在图像描述、视觉问答和图像生成等领域取得了显著进展。然而,将这些模型应用于机器人操作仍面临挑战,如如何整合视觉和语言信息,以及如何处理机器人操作的时序性。解决这些挑战需要在多个方面进行改进,例如改进模型的多模态表示能力,设计更有效的模型融合机制,以及引入适应机器人操作时序性的模型结构和算法。此外,还需要发展更丰富的机器人数据集,以训练和评估这些模型。通过持续的研究和创新,基于语言的机器人操作有望在实际应用中发挥更大的作用,为人类提供更智能、便捷的服务。

为了解决这些问题,ByteDance Research的机器人研究团队对现有的开源VLM(Visual Language Model)——OpenFlamingo进行了微调,并设计了一套新的视觉语言操作框架,称为RoboFlamingo。这个框架的特点是利用VLM实现了单步视觉语言理解,并通过额外的policy head模组处理历史信息。通过简单的微调方法,RoboFlamingo能够适应基于语言的机器人操作任务。这一框架的引入有望解决当前机器人操作中存在的一系列问题。

RoboFlamingo 在基于语言的机器人操作数据集 CALVIN 上进行了验证,实验结果表明,RoboFlamingo 只利用了 1% 的带语言标注的数据即在一系列机器人操作任务上取得了 SOTA 的性能(多任务学习的 task sequence 成功率为 66%,平均任务完成数量为 4.09,基线方法为 38%,平均任务完成数量为 3.06;zero-shot 任务的成功率为 24%,平均任务完成数量为 2.48,基线方法为 1%,平均任务完成数量是 0.67),并且能够通过开环控制实现实时响应,可以灵活部署在较低性能的平台上。这些结果表明,RoboFlamingo 是一种有效的机器人操作方法,可以为未来的机器人应用提供有用的参考。

方法

机器人领域首个开源视觉-语言操作大模型,RoboFlamingo框架激发开源VLMs更大潜能

本工作利用已有的基于图像 - 文本对的视觉语言基础模型,通过训练端到端的方式生成机器人每一步的相对动作。该模型由三个主要模块组成:Vision encoder,Feature fusion decoder 和 Policy head。 在 Vision encoder 模块中,当前视觉观测首先被输入到 ViT 中,然后通过 resampler 对 ViT 输出的 token 进行 down sample。这一步骤有助于减小模型的输入维度,从而提高了训练效率。 Feature fusion decoder 模块将 text token 作为输入,并通过交叉注意力机制将视觉编码器的输出作为查询,实现了视觉与语言特征的融合。在每个 layer 中,feature fusion decoder 首先执行交叉注意力操作,然后执行自注意力操作。这些操作有助于提取出语言和视觉特征之间的相关性,从而更好地生成机器人的动作。 在 Feature fusion decoder 输出的当前和历史 token 序列的基础上,Policy head 直接输出当前的 7 DoF 相对动作,包括了 6-dim 的机械臂末端位姿和 1-dim 的 gripper open/close。最后,对 feature fusion decoder 进行 max pooling 后将其送入 Policy head 中,从而生成相对动作。 通过这种方式,我们的模型能够有效地将视觉和语言信息融合在一起,生成出准确的机器人动作。这对于机器人控制和自主导航等领域有着广泛的应用前景。

在训练过程中,RoboFlamingo 利用预训练的 ViT、LLM 和 Cross Attention 参数,并只微调 resampler、cross attention 和 policy head 的参数。

实验结果

数据集:

机器人领域首个开源视觉-语言操作大模型,RoboFlamingo框架激发开源VLMs更大潜能

CALVIN(Composing Actions from Language and Vision)是一个开源的模拟基准测试,用于学习基于语言的 long-horizon 操作任务。与现有的视觉 - 语言任务数据集相比,CALVIN 的任务在序列长度、动作空间和语言上都更为复杂,并支持灵活地指定传感器输入。CALVIN 分为 ABCD 四个 split,每个 split 对应了不同的 context 和 layout。

定量分析:

机器人领域首个开源视觉-语言操作大模型,RoboFlamingo框架激发开源VLMs更大潜能

RoboFlamingo 在各设置和指标上的性能均为最佳,说明了其具有很强的模仿能力、视觉泛化能力以及语言泛化能力。Full 和 Lang 表示模型是否使用未配对的视觉数据进行训练(即没有语言配对的视觉数据);Freeze-emb 指的是冻结融合解码器的嵌入层;Enriched 表示使用 GPT-4 增强的指令。

消融实验:

机器人领域首个开源视觉-语言操作大模型,RoboFlamingo框架激发开源VLMs更大潜能

不同的 policy head:

实验考察了四种不同的策略头部:MLP w/o hist、MLP w hist、GPT 和 LSTM。其中,MLP w/o hist 直接根据当前观测预测历史,其性能最差,MLP w hist 将历史观测在 vision encoder 端进行融合后预测 action,性能有所提升;GPT 和 LSTM 在 policy head 处分别显式、隐式地维护历史信息,其表现最好,说明了通过 policy head 进行历史信息融合的有效性。

视觉-语言预训练的影响:

预训练对于 RoboFlamingo 的性能提升起到了关键作用。实验显示,通过预先在大型视觉-语言数据集上进行训练,RoboFlamingo 在机器人任务中表现得更好。

模型大小与性能:

虽然通常更大的模型会带来更好的性能,但实验结果表明,即使是较小的模型,也能在某些任务上与大型模型媲美。

指令微调的影响:

指令微调是一个强大的技巧,实验结果表明,它可以进一步提高模型的性能。

定性结果

相较于基线方法,RoboFlamingo 不但完整执行了 5 个连续的子任务,且对于基线页执行成功的前两个子任务,RoboFlamingo 所用的步数也明显更少。

机器人领域首个开源视觉-语言操作大模型,RoboFlamingo框架激发开源VLMs更大潜能

总结

本工作为语言交互的机器人操作策略提供了一个新颖的基于现有开源 VLMs 的框架,使用简单微调就能实现出色的效果。RoboFlamingo 为机器人技术研究者提供了一个强大的开源框架,能够更容易地发挥开源 VLMs 的潜能。工作中丰富的实验结果或许可以为机器人技术的实际应用提供宝贵的经验和数据,有助于未来的研究和技术发展。

今天关于《挖掘开源VLMs潜力,RoboFlamingo框架引领机器人视觉-语言操作》的内容介绍就到此结束,如果有什么疑问或者建议,可以在golang学习网公众号下多多回复交流;文中若有不正之处,也希望回复留言以告知!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
解决Win11健康检测工具无法安装问题的教程解决Win11健康检测工具无法安装问题的教程
上一篇
解决Win11健康检测工具无法安装问题的教程
Pepper研究揭示社交机器人的减少孤独效果
下一篇
Pepper研究揭示社交机器人的减少孤独效果
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    509次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI边界平台:智能对话、写作、画图,一站式解决方案
    边界AI平台
    探索AI边界平台,领先的智能AI对话、写作与画图生成工具。高效便捷,满足多样化需求。立即体验!
    224次使用
  • 讯飞AI大学堂免费AI认证证书:大模型工程师认证,提升您的职场竞争力
    免费AI认证证书
    科大讯飞AI大学堂推出免费大模型工程师认证,助力您掌握AI技能,提升职场竞争力。体系化学习,实战项目,权威认证,助您成为企业级大模型应用人才。
    245次使用
  • 茅茅虫AIGC检测:精准识别AI生成内容,保障学术诚信
    茅茅虫AIGC检测
    茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
    365次使用
  • 赛林匹克平台:科技赛事聚合,赋能AI、算力、量子计算创新
    赛林匹克平台(Challympics)
    探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
    450次使用
  • SEO  笔格AIPPT:AI智能PPT制作,免费生成,高效演示
    笔格AIPPT
    SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
    382次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码