当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > DeepMind将大规模机器重塑为具身智能,揭示未来发展方向

DeepMind将大规模机器重塑为具身智能,揭示未来发展方向

来源:机器之心 2024-01-23 09:13:34 0浏览 收藏

珍惜时间,勤奋学习!今天给大家带来《DeepMind将大规模机器重塑为具身智能,揭示未来发展方向》,正文内容主要涉及到等等,如果你正在学习科技周边,或者是对科技周边有疑问,欢迎大家关注我!后面我会持续更新相关内容的,希望都能帮到正在学习的大家!

过去一年中,连连取得突破的大模型正在重塑机器人研究领域。

随着最先进的大模型成为机器人的"大脑",机器人的进化速度超乎想象。

7 月,谷歌 DeepMind 宣布推出 RT-2:全球第一个控制机器人的视觉 - 语言 - 动作(VLA)模型。

只需要向对话一样下达命令,它就能在一堆图片中辨认出霉霉,送给她一罐「快乐水」。

大模型正在重构机器人,谷歌Deepmind这样定义具身智能的未来

甚至能主动思考,完成了从「选择灭绝的动物」到抓取桌子上的塑料恐龙这种多阶段推理的飞跃。

大模型正在重构机器人,谷歌Deepmind这样定义具身智能的未来

在 RT-2 之后,谷歌 DeepMind 又提出了 Q-Transformer,机器人界也有了自己的 Transformer 。Q-Transformer 使得机器人突破了对高质量的演示数据的依赖,更擅长依靠自主「思考」来积累经验。

RT-2 发布仅两个月,又迎来了机器人的 ImageNet 时刻。谷歌 DeepMind 联合其他机构推出了 Open X-Embodiment 数据集,改变了以往需要针对每个任务、机器人具体定制模型的方法,将各种机器人学的知识结合起来,创造出了一种训练通用机器人的新思路。

可以想象一下,只需向你的机器人小助理发出简单的要求,比如「打扫房子」或「做一顿美味健康的饭菜」,它们就可以完成这些任务。对于人类来说,这些工作可能很简单,但对于机器人来说,需要它们对世界有深度理解,这并非易事。

基于在机器人 Transformer 领域深耕多年的研究基础, 近期,谷歌宣布了一系列机器人研究进展:AutoRT、SARA-RT 和 RT-Trajectory,它们能够帮助机器人更快地做出决策,更好地理解它们身处于怎样的环境,更好地指导自己完成任务。

谷歌相信随着 AutoRT、SARA-RT 和 RT-Trajectory 等研究成果的推出,能为现实的世界机器人的数据收集、速度和泛化能力带来增益。

接下来,让我们回顾一下这几项重要研究。

AutoRT:利用大型模型更好地训练机器人

AutoRT 结合了大型基础模型(如大型语言模型(LLM)或视觉语言模型(VLM))和机器人控制模型(RT-1 或 RT-2),创建了一个可以在新环境中部署机器人用以收集训练数据的系统。AutoRT 可以同时指导多个配备了视频摄像机和末端执行器的机器人,在各种各样环境中执行多样化的任务。

具体来说,每个机器人将根据 AutoRT,使用视觉语言模型(VLM)来「看看四周」,了解其环境和视线内的物体。接下来,大型语言模型会为其提出一系列创造性任务,例如「将零食放在桌子上」,并扮演决策者的角色,为机器人选择需要执行的任务。

研究人员在现实世界中对 AutoRT 进行了长达七个月的广泛评估。实验证明,AutoRT 系统能够同时安全地协调多达 20 个机器人,最多时共能协调 52 个机器人。通过指导机器人在各种办公楼内执行各种任务,研究人员收集了涵盖 77,000 个机器人试验,6,650 个独特任务的多样化数据集。

大模型正在重构机器人,谷歌Deepmind这样定义具身智能的未来

上图呈现了 AutoRT 系统的运作过程:(1)自主轮式机器人找到了一个有多个物体的位置。(2)VLM 向 LLM 描述场景和物体。(3)LLM 为机器人提出各种操作任务,并决定哪些任务机器人可以独立完成,哪些任务需要人类远程控制,哪些任务不可能完成,然后做出选择。(4)机器人尝试选择要做的任务,收集实验数据,并对数据的多样性和新鲜度进行评分。机器人将不断重复这个过程。

AutoRT 具有利用大型基础模型的潜力,这对于机器人理解实际应用中的人类指令至关重要。通过收集更全面的实验训练数据和更多样化的数据,AutoRT 能够扩展机器人的学习能力,为现实世界的机器人训练带来提升。

在机器人融入我们的日常生活之前,需要保证它们的安全性,这要求研究者做到负责任地开发,并对机器人的安全性进行深度研究。

虽然 AutoRT 现在只是一个数据收集系统,但可以将其视为现实世界中自主机器人的早期阶段。它具有安全护栏,其中一项是一套以安全为重点的提示词,它能够在机器人执行基于 LLM 的决策时提供需要遵守的基本规则。

这些规则部分受到艾萨克・阿西莫夫的机器人三定律的启发,其中最重要的是机器人「不得伤害人类」。安全规则还要求机器人不得尝试涉及人类、动物、尖锐物体或电器的任务。

仅在提示词方面下功夫,也无法完全保证机器人实际应用中的安全问题。因此,AutoRT 系统还包含实用安全措施层这一机器人技术的经典设计。例如,协作机器人的程序被设定为如果其关节上的力超过给定阈值,则自动停止,并且所有自主控制的机器人都能够通过物理停用开关被限制在人类监督员的视线范围内。

SARA-RT:让机器人 Transformer(RT)变得更快、更精简

另一项成果 SARA-RT,可将机器人 Transformer(RT)模型转换为更高效的版本。

谷歌团队开发的 RT 神经网络架构已被用于最新的机器人控制系统,包括 RT-2 模型。最好的 SARA-RT-2 模型在获得简短的图像历史记录后,比 RT-2 模型的精确度高 10.6%,速度快 14%。谷歌表示,这是首个在不降低质量的情况下提高计算能力的可扩展注意力机制。

虽然 Transformer 功能强大,但它们可能会受到计算需求的限制,从而减慢决策速度。Transformer 主要依赖于二次复杂度的注意力模块。这意味着,如果 RT 模型的输入增加一倍(例如,为机器人提供更多或更高分辨率的传感器),处理该输入所需的计算资源就会增加四倍,从而导致决策速度减慢。

SARA-RT 采用了一种新颖的模型微调方法(称为「向上训练」)来提高模型的效率。向上训练将二次复杂性转换为单纯的线性复杂性,从而大幅降低了计算要求。这种转换不仅能提高原始模型的速度,还能保持其质量。

谷歌希望许多研究人员和从业人员能将这一实用系统应用于机器人技术及其他领域。由于 SARA 提供了加快 Transformer 速度的通用方法,无需进行计算成本高昂的预训练,因此这种方法具有大规模推广 Transformer 技术的潜力。SARA-RT 不需要任何额外的代码,因为可以使用各种开源的线性变体。

当 SARA-RT 应用于拥有数十亿个参数的 SOTA RT-2 模型,它能在各种机器人任务中实现更快的决策和更好的性能:

大模型正在重构机器人,谷歌Deepmind这样定义具身智能的未来

用于操纵任务的 SARA-RT-2 模型。机器人的动作以图像和文本指令为条件。

凭借其坚实的理论基础,SARA-RT 可应用于各种 Transformer 模型。例如,将 SARA-RT 应用于点云 Transformer(用于处理来自机器人深度摄像头的空间数据),其速度能够提高一倍以上。

RT-Trajectory:帮助机器人泛化

人类可以直观地理解、学会如何擦桌子,但机器人需要许多可能的方式将指令转化为实际的物理动作。

传统上,对机械臂的训练依赖于将抽象的自然语言(擦桌子)映射到具体的动作(关闭抓手、向左移动、向右移动),这使得模型很难推广到新任务中。与此相反,RT - 轨迹模型通过解释具体的机器人动作(如视频或草图中的动作),使 RT 模型能够理解 「如何完成」任务。

RT-Trajectory 模型能自动添加视觉轮廓,描述训练视频中的机器人动作。RT-Trajectory 将训练数据集中的每段视频与机器人手臂执行任务时抓手的 2D 轨迹草图叠加在一起。这些轨迹以 RGB 图像的形式,为模型学习机器人控制策略提供了低层次、实用的视觉提示。

在对训练数据中未见的 41 项任务进行测试时,由 RT-Trajectory 控制的机械臂的性能比现有的 SOTA RT 模型高出一倍多:任务成功率达到 63%,而 RT-2 的成功率仅为 29%。

该系统的用途十分广泛,RT-Trajectory 还可以通过观看人类对所需任务的演示来创建轨迹,甚至可以接受手绘草图。而且,它还能随时适应不同的机器人平台。

大模型正在重构机器人,谷歌Deepmind这样定义具身智能的未来左图:只使用自然语言数据集训练的 RT 模型控制的机器人,在执行擦桌子这一新任务时受挫,而由 RT 轨迹模型控制的机器人,在经过 2D 轨迹增强的相同数据集训练后,成功规划并执行了擦拭轨迹。右图:训练有素的 RT 轨迹模型在接到新任务(擦桌子)后,可以在人类的协助下或利用视觉语言模型自行以多种方式创建 2D 轨迹。

RT 轨迹利用了丰富的机器人运动信息,这些信息存在于所有机器人数据集中,但目前尚未得到充分利用。RT-Trajectory 不仅代表着在制造面向新任务高效准确移动的机器人的道路上又迈进了一步,而且还能从现有数据集中发掘知识。

理论要掌握,实操不能落!以上关于《DeepMind将大规模机器重塑为具身智能,揭示未来发展方向》的详细介绍,大家都掌握了吧!如果想要继续提升自己的能力,那么就来关注golang学习网公众号吧!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
展望2024:数据技术的趋势有基础模型和机密计算展望2024:数据技术的趋势有基础模型和机密计算
上一篇
展望2024:数据技术的趋势有基础模型和机密计算
解决Windows 10中的字符乱码问题
下一篇
解决Windows 10中的字符乱码问题
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    12次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    11次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    10次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    16次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    16次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码