当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」

具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」

来源:机器之心 2024-05-24 13:24:21 0浏览 收藏

编程并不是一个机械性的工作,而是需要有思考,有创新的工作,语法是固定的,但解决问题的思路则是依靠人的思维,这就需要我们坚持学习和更新自己的知识。今天golang学习网就整理分享《具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」》,文章讲解的知识点主要包括,如果你对科技周边方面的知识点感兴趣,就不要错过golang学习网,在这可以对大家的知识积累有所帮助,助力开发能力的提升。

具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

当我们拿起一个机械手表时,从正面会看到表盘和指针,从侧面会看到表冠和表链,打开手表背面会看到复杂的齿轮和机芯。每个视角都提供了不同的信息,将这些信息综合起来才能理解操作对象的整体三维。

想让机器人在现实生活中学会执行复杂任务,首先需要使机器人理解操作对象和被操作对象的属性,以及相应的三维操作空间,包括物体位置、形状、物体之间的遮挡关系,以及对象与环境的关系等。

其次,机器人需要理解自然语言指令,对未来动作进行长期规划和高效执行。使机器人具备从环境感知到动作预测的能力是具有挑战性的。

近期,中国电信人工智能研究院(TeleAI)李学龙教授团队联合上海人工智能实验室、清华大学等单位,模拟人「感知—记忆—思维—想象」的认知过程,提出了多视角融合驱动的通用具身操作算法,为机器人学习复杂操作给出了可行解决方案,论文被国际机器学习大会ICML 2024录用,为构建通用三维具身策略奠定了基础。SAM-E视频介绍如下:具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」
近年来,视觉基础模型对图像的理解能力获得了飞速发展。然而,三维空间的理解还存在许多挑战。能否利用视觉大模型帮助具身智能体理解三维操作场景,使其在三维空间中完成各种复杂的操作任务呢?受「感知—记忆—思维—想象」的认知过程启发,论文提出了全新的基于视觉分割模型Segment Anything(SAM)的具身基座模型SAM-E

首先,SAM- E具有强大可提示(promptable)「感知」能力,将SAM特有的分割结构应用在语言指令的具身任务中,通过解析文本指令使模型关注到场景中的操作物体。

随后,设计一种多视角Transformer,对深度特征、图像特征与指令特征进行融合与对齐,实现对象「记忆」与操作「思考」,以此来理解机械臂的三维操作空间。

最后,提出了一种全新的动作序列预测网络,对多个时间步的动作序列进行建模,「想象」动作指令,实现了从三维场景感知到具身动作的端到端输出
具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」
  • 论文名称:SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation
  • 论文链接: https://sam-embodied.github.io/static/SAM-E.pdf
  • 项目地址: https://sam-embodied.github.io/

从二维感知到三维感知

在数字时代的浪潮中,随着人工智能技术的飞速发展,我们正逐渐迈入一个崭新的时代——具身智能时代。赋予智能体以身体,使其具备与真实世界直接互动的能力,成为了当前研究的重点方向之一。

要实现这一目标,智能体必须具备强大的三维感知能力,以便能够准确地理解周围环境。

传统的二维感知手段在面对复杂的立体空间时显得力不从心,如何让具身智能体通过学习掌握对三维空间的精准建模能力,成为了一个亟待解决的关键问题。

现有工作通过正视图、俯视图、侧视图等等多个视角的视图还原和重建三维空间,然而所需的计算资源较为庞大,同时在不同场景中具有的泛化能力有限。

为了解决这个问题,本工作探索一种新的途径——将视觉大模型的强大泛化能力应用于具身智能体的三维感知领域

SAM-E提出了使用具有强大泛化能力的通用视觉大模型 SAM 进行视觉感知,通过在具身场景的高效微调,将其具有的可泛化,可提示(promptable)的特征提取能力、实例分割能力、复杂场景理解等能力有效迁移到具身场景中。

为了进一步优化SAM基座模型的性能,引入了动作序列网络的概念,不仅能够捕捉单个动作的预测,还能够深入理解连续动作之间的内在联系,充分挖掘动作间的时序信息,从而进一步提高基座模型对具身场景的理解与适应能力。

具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」

                                   图1. SAM-E总体框架

SAM-E方法

SAM-E方法的核心观点主要包含两个方面:

  • 利用SAM的提示驱动结构,构建了一个强大的基座模型,在任务语言指令下拥有出色的泛化性能。通过LoRA微调技术,将模型适配到具身任务中,进一步提升了其性能。
  • 采用时序动作建模技术,捕捉动作序列中的时序信息,更好地理解任务的动态变化,并及时调整机器人的策略和执行方式,使机器人保持较高的执行效率。

可提示感知与微调

SAM- E核心在于利用任务指令提示驱动的网络结构,包含一个强大的视觉编码器和一个轻量的解码器。

在具身场景中任务「提示」以自然语言的形式呈现,作为任务描述指令,视觉编码器发挥其可提示的感知能力,提取与任务相关的特征。策略网络则充当解码器的角色,基于融合的视觉嵌入和语言指令输出动作。

在训练阶段,SAM-E 使用 LoRA 进行高效微调,大大减少了训练参数,使视觉基础模型能够快速适应于具身任务。

多视角三维融合

SAM-E引入了多视角Transformer网络,以融合多视角的视觉输入,深入理解三维空间。其工作分为两个阶段:视角内注意力(View-wise Attention)跨视角注意力(Cross-view Attention)

首先,对多视角特征分别进行视角内部的注意力处理,然后融合多个视角和语言描述进行混合视角注意力,实现多视角的信息融合和图像—语言对齐。

动作序列建模

在机械臂执行中,末端执行器的位置和旋转通常呈现出连续而平滑的变化趋势。这一特性使得相邻动作之间存在着密切的联系和连续性。基于这一观察,提出了一种新颖的时间平滑假设,旨在充分利用相邻动作之间的内在关联,实现对动作序列的有效模仿学习

具体来说,SAM-E框架通过序列建模技术捕捉动作序列中的模式和关系,为动作预测提供一种隐性的先验知识,并对动作的连续性加以约束,从而显著提升动作预测的准确性和一致性。

在实际应用中,SAM-E 允许在一次动作预测中执行后续的多步动作,极大地提高了执行效率。

具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」

                              图3.连续动作的位置和旋转变化              

具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」

                                  图4.动作序列预测网络

实验

实验使用具有挑战性的机械臂任务集合——RLBench,对多视角观测下的3D操作任务进行了全面评估,SAM-E模型在多个方面均显著优于其他传统方法。

  • 多任务场景下,SAM-E模型显著提高了任务成功率。
  • 面对少量样本迁移至新任务的情况下,SAM-E凭借强大的泛化性能和高效的执行效率,有效提升新任务的表现。

具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」

                                 图5.三维操作任务结果比较

具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」

                                图6.三维操作任务示例

此外,动作序列建模显著提高了 SAM-E 的执行效率,同时在策略执行阶段,相比于单个动作,动作序列执行显著降低了模型推理次数,测试中甚至能通过一次模型推理完成相应任务。
具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」
                                       图7.任务执行中的模型推理频率

SAM-E在真实机械臂控制中同样有效,使用两个第三人称相机捕获多视角视觉输入,在五个真实任务上具有实时的推理能力。
具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」
                                               图8.真实机械臂任务

总结

该工作开创性地提出了一种以多视角融合的基础的通用具身操作算法,利用视觉分割大模型和多视角融合实现具身智能体的三维物理空间感知。

通过高效的参数微调,将预训练视觉模型迁移到具身场景中,能够解决自然语言指令的复杂3D机械臂操作任务。此外,模型可以通过学习少量专家示例,快速泛化到新的任务中,展现出优越的训练效率和动作执行效率。

更重要的是,SAM-E以「感知—记忆—思维—想象」的认知链路,实现了从数据到动作的端到端映射。其意义不仅在于其在具身智能体中的应用,更在于对提升智能体认知能力的启发。

通过模拟人类的感知和决策方式,智能体能够更好地理解和适应复杂的环境,从而在更广泛的领域发挥更大的作用。

团队负责人介绍:
 
李学龙,中国电信CTO、首席科学家,中国电信人工智能研究院(TeleAI)院长。主要关注人工智能、临地安防、图像处理、具身智能。

具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」

好了,本文到此结束,带大家了解了《具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多科技周边知识!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
特斯拉发布报告:电池寿命超32万公里,性能衰减有限特斯拉发布报告:电池寿命超32万公里,性能衰减有限
上一篇
特斯拉发布报告:电池寿命超32万公里,性能衰减有限
Java框架助力企业级应用实现数字化转型
下一篇
Java框架助力企业级应用实现数字化转型
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    16次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    12次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    12次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    16次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    17次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码