当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 用苹果Vision Pro隔空操控机器人,英伟达:「人机合一」也不难嘛

用苹果Vision Pro隔空操控机器人,英伟达:「人机合一」也不难嘛

来源:机器之心 2024-07-31 19:54:18 0浏览 收藏

小伙伴们对科技周边编程感兴趣吗?是否正在学习相关知识点?如果是,那么本文《用苹果Vision Pro隔空操控机器人,英伟达:「人机合一」也不难嘛》,就很适合你,本篇文章讲解的知识点主要包括。在之后的文章中也会多多分享相关知识点,希望对大家的知识积累有所帮助!

黄仁勋表示:「AI 的下一波浪潮是机器人,其中最令人兴奋的发展之一是人形机器人。」如今,Project GR00T 又迈出了重要的一步。

昨日,英伟达创始人黄仁勋在 SIGGRAPH 2024 Keynote 演讲中讲到了其人形机器人通用基础模型「Project GR00T」。该模型在功能上迎来了一系列更新。

德克萨斯大学奥斯汀分校助理教授、英伟达高级研究科学家朱玉可发推,在视频中演示了英伟达如何将通用家务机器人大规模仿真训练框架 RoboCasa 和 MimicGen 系统整合到英伟达 Omniverse 平台和 Isaac 机器人开发平台

用苹果Vision Pro隔空操控机器人,英伟达:「人机合一」也不难嘛

                              图源:https://x.com/yukez/status/1818092679936299373

视频中涵盖了英伟达自己的三个计算平台,包括 AI、Omniverse 和 Jetson Thor,利用它们简化和加速开发者工作流程。通过这些计算平台的共同赋能,我们有望进入由物理 AI 驱动的人形机器人时代。

用苹果Vision Pro隔空操控机器人,英伟达:「人机合一」也不难嘛

其中最大的亮点,开发人员能够使用苹果 Vision Pro 来远程操控人形机器人来执行任务。用苹果Vision Pro隔空操控机器人,英伟达:「人机合一」也不难嘛用苹果Vision Pro隔空操控机器人,英伟达:「人机合一」也不难嘛用苹果Vision Pro隔空操控机器人,英伟达:「人机合一」也不难嘛
与此同时,另一位英伟达高级研究科学家 Jim Fan 表示,Project GR00T 的更新令人振奋。英伟达利用系统化的方法来扩展机器人数据,解决了机器人领域最棘手的难题。

思路也很简单:人类在真实机器人身上收集演示数据,而英伟达在仿真中将这些数据扩展千倍及以上。通过 GPU 加速仿真,人们现在可以用算力来换取耗时耗力耗资金的人类收集数据了。

他谈到自己不久前还认为远程操控在根本上不可扩展,这是因为在原子世界中,我们总是受到 24 小时 / 机器人 / 天数的限制。英伟达在 GR00T 上采用的新的合成数据 pipeline 在比特世界打破了这一局限。

用苹果Vision Pro隔空操控机器人,英伟达:「人机合一」也不难嘛

                                                        图源:https://x.com/DrJimFan/status/1818302152982343983

对于英伟达在人形机器人领域的最新进展,有网友表示,苹果 Vision Pro 找到了最酷的用例。

用苹果Vision Pro隔空操控机器人,英伟达:「人机合一」也不难嘛用苹果Vision Pro隔空操控机器人,英伟达:「人机合一」也不难嘛

英伟达开始引领下一波浪潮:物理 AI

英伟达也在一篇博客中详述了加速人形机器人的技术流程,完整内容如下:

为了加速全球范围内人形机器人的发展,英伟达宣布为全球领先的机器人制造商、AI 模型开发商和软件制造商提供一套服务、模型和计算平台,以开发、训练和构建下一代人形机器人。

用苹果Vision Pro隔空操控机器人,英伟达:「人机合一」也不难嘛

这套产品包括用于机器人仿真和学习的全新 NVIDIA NIM 微服务和框架、用于运行多阶段机器人工作负载的 NVIDIA OSMO 编排服务,以及支持 AI 和仿真的远程操作工作流,该工作流允许开发者使用少量人类演示数据来训练机器人。

黄仁勋表示:「AI 的下一波浪潮是机器人,其中最令人兴奋的发展之一是人形机器人。我们正在推进整个 NVIDIA 机器人堆栈的发展,面向全球人形机器人开发者和公司开放访问,让他们能够使用最符合其需求的平台、加速库和 AI 模型。」

用苹果Vision Pro隔空操控机器人,英伟达:「人机合一」也不难嘛

借助 NVIDIA NIM 和 OSMO 加速开发

NIM 微服务提供了由英伟达推理软件提供支持的预构建容器,使开发人员能够将部署时间从几周缩短到几分钟。

两个新的 AI 微服务将允许机器人专家在 NVIDIA Isaac Sim 中增强生成物理人工智能仿真工作流程。

MimicGen NIM 微服务根据来自空间计算设备(如 Apple Vision Pro)记录的远程数据生成合成运动数据。Robocasa NIM 微服务可在 OpenUSD 中生成机器人任务和仿真环境。

云原生托管服务 NVIDIA OSMO 现已推出,允许用户在分布式计算资源(无论是在本地还是在云中)中协调和扩展复杂的机器人开发工作流程。OSMO 的出现大大简化了机器人训练和仿真工作流程,将部署和开发周期从数月缩短至不到一周。

为人形机器人开发者提供先进的数据捕获工作流

训练人形机器人背后的基础模型需要大量的数据。获取人类演示数据的一种方法是使用远程操作,但这种方式正变得越来越昂贵和漫长。

通过在 SIGGRAPH 计算机图形大会上展示的 NVIDIA AI 和 Omniverse 远程操作参考工作流,研究者和 AI 开发者能够从极少量远程捕捉的人类演示中生成大量合成运动和感知数据。

用苹果Vision Pro隔空操控机器人,英伟达:「人机合一」也不难嘛

首先,开发人员使用 Apple Vision Pro 捕捉少量远程演示。然后,他们在 NVIDIA Isaac Sim 中仿真录音,并使用 MimicGen NIM 微服务从录音中生成合成数据集。

开发人员使用真实数据和合成数据来训练 Project GR00T 人形机器人基础模型,从而节省了大量的时间并降低了成本。然后,他们使用 Isaac Lab 中的 Robocasa NIM 微服务(一种机器人学习框架)来生成经验以重新训练机器人模型。在整个工作流中,NVIDIA OSMO 将计算任务无缝地分配给不同的资源,为开发者减少了数周的管理工作量。

扩大对 NVIDIA 人形机器人开发者技术的访问权限

NVIDIA 提供了三个计算平台来简化人形机器人的开发:用于训练模型的 NVIDIA AI 超级计算机;基于 Omniverse 构建的 NVIDIA Isaac Sim,机器人可以在仿真世界中学习和完善技能;以及用于运行模型的 NVIDIA Jetson Thor 人形机器人计算机。开发人员可以根据自己的特定需求访问和使用全部或部分平台。

通过新的 NVIDIA 人形机器人开发者计划,开发者可以提前使用新产品以及 NVIDIA Isaac Sim、NVIDIA Isaac Lab、Jetson Thor 和 Project GR00T 通用人形机器人基础模型的最新版本。

1x、波士顿动力、字节跳动、Field AI、Figure、Fourier、Galbot、LimX Dynamics、Mentee、Neura Robotics、RobotEra 和 Skild AI 是首批加入早期访问计划的公司。

开发人员现在可以加入 NVIDIA 人形机器人开发人员计划,以访问 NVIDIA OSMO 和 Isaac Lab,并且很快将获得 NVIDIA NIM 微服务的访问权限。

博客链接:
https://nvidianews.nvidia.com/news/nvidia-accelerates-worldwide-humanoid-robotics-development

今天带大家了解了的相关知识,希望对你有所帮助;关于科技周边的技术知识我们会一点点深入介绍,欢迎大家关注golang学习网公众号,一起学习编程~

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
何小鹏:特斯拉在自动驾驶领域领先小鹏汽车何小鹏:特斯拉在自动驾驶领域领先小鹏汽车
上一篇
何小鹏:特斯拉在自动驾驶领域领先小鹏汽车
人形机器人「星尘智能」获数千万美元Pre-A轮融资,经纬创投领投,专注AI机器人商业化
下一篇
人形机器人「星尘智能」获数千万美元Pre-A轮融资,经纬创投领投,专注AI机器人商业化
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 可图AI图片生成:快手可灵AI2.0引领图像创作新时代
    可图AI图片生成
    探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
    2次使用
  • SEO标题Traini:全球首创宠物AI技术,提升宠物健康与行为解读
    Traini
    SEO摘要Traini是一家专注于宠物健康教育的创新科技公司,利用先进的人工智能技术,提供宠物行为解读、个性化训练计划、在线课程、医疗辅助和个性化服务推荐等多功能服务。通过PEBI系统,Traini能够精准识别宠物狗的12种情绪状态,推动宠物与人类的智能互动,提升宠物生活质量。
    2次使用
  • 可图AI 2.0:快手旗下新一代图像生成大模型,专业创作者与普通用户的多模态创作引擎
    可图AI 2.0图片生成
    可图AI 2.0 是快手旗下的新一代图像生成大模型,支持文本生成图像、图像编辑、风格转绘等全链路创作需求。凭借DiT架构和MVL交互体系,提升了复杂语义理解和多模态交互能力,适用于广告、影视、非遗等领域,助力创作者高效创作。
    12次使用
  • 毕业宝AIGC检测:AI生成内容检测工具,助力学术诚信
    毕业宝AIGC检测
    毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
    24次使用
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    34次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码