业内首创具身智能原子技能库架构揭秘
具身智能技术是通向通用人工智能(AGI)的关键路径,全球科技公司如特斯拉、Agility、波士顿动力等都在积极布局。京东探索研究院李律松、李东江博士团队联合多家机构,推出了业内首创的基于三轮数据驱动的原子技能库构建框架,突破了传统端到端具身操作的数据瓶颈。该框架通过动态自定义和更新原子技能,结合数据收集与VLA少样本学习,构建高效技能库,显著提升了数据效率和泛化能力,推动了具身智能在物流、制造、医疗等领域的应用。
具身智能技术的突破与应用是通向通用人工智能(AGI)的必经之路,全球科技公司正加速布局,如特斯拉的Optimus、Agility的Digit、波士顿动力的Atlas及Figure AI等。2023年蛇年春晚的机器人“扭秧歌”表演也成为了人们茶余饭后的谈资。随着大模型技术的进步,具身智能也在快速发展。
然而,具身智能仍面临诸多挑战,其中核心挑战在于具身操作的泛化能力,即如何在有限的具身数据下,使机器人适应复杂场景并实现技能的高效迁移。
京东探索研究院李律松、李东江博士团队发起了该项目,并联合地瓜机器人秦玉森团队、中科大徐童团队、深圳大学郑琪团队、松灵机器人及睿尔曼智能吴波团队共同推进,获得了清华RDT团队在基础方法上的技术支持。
团队提出了首个基于三轮数据驱动的原子技能库构建框架,突破了传统端到端具身操作的数据瓶颈。该方法能够动态自定义和更新原子技能,并结合数据收集与VLA少样本学习,构建高效技能库。
实验结果表明,该方案在数据效率和泛化能力方面表现卓越,是业内首个基于数据驱动的具身大模型原子技能库构建框架,也是首个面向具身产业应用的数据采集新范式,形成了数据标准,解决了当前具身智能数据缺乏的问题,尤其是高校与产业之间数据和范式的流动,推动了具身大模型的研究与落地。
在生成式AI时代,具身智能迎来了重要突破。通过跨模态融合,将文本、图像、语音等数据映射到统一的语义向量空间,为具身智能技术的发展提供了新契机。VLA(视觉-语言-动作)模型在数据可用性与多模态技术的推动下不断取得进展。
然而,现实环境的复杂性使得具身操作模型在泛化性上仍面临挑战。端到端训练依赖海量数据,导致“数据爆炸”问题,限制了VLA的发展。将任务分解为可重用的原子技能可以降低数据需求,但现有方法受限于固定技能集,无法动态更新。
为解决这一问题,团队提出了基于三轮数据驱动的原子技能库构建方法,可在仿真或真实环境的模型训练中减少数据需求。
如图所示,VLP(视觉-语言-规划)模型将任务分解为子任务,高级语义抽象模块将子任务定义为通用原子技能集,并通过数据收集与VLA微调构建技能库。随着三轮更新策略的动态扩展,技能库不断扩增,覆盖任务范围扩大。该方法将重点从端到端技能学习转向细颗粒度的原子技能构建,有效解决了数据爆炸问题,并提升了新任务的适应能力。
基于三轮数据驱动的原子技能库构建与推理流程为什么需要VLP?VLP需要具有哪些能力? 从产业落地的角度看,具身操作是关键模块。目前,端到端VLA进行高频开环控制,即便中间动作失败,仍输出下一阶段控制信号。因此,VLA在高频控制机器人/机械臂时,强烈依赖VLP提供低频智能控制,以指导阶段性动作生成,并协调任务执行节奏。
为统一训练与推理的任务分解,本文构建了集成视觉感知、语言理解和空间智能的VLP Agent。如图所示,VLP Agent接收任务指令文本与当前观察图像,并利用Prismatic生成场景描述。考虑到3D世界的复杂性,我们设计了一种空间智能感知策略:
首先,Dino-X检测任务相关物体并输出边界框;然后,SAM-2提供精细分割掩码,并基于规则判断物体间的空间关系;最终,这些视觉与空间信息与任务指令一同输入GPT-4,生成完整执行计划并指定下一个子任务。VLP Agent通过该方法在原子技能库构建中有效分解端到端任务,并在推理过程中提供低频控制信号,规划并指导高频原子技能的执行。
基于空间智能信息的VLP Agent具身思维链框架VLA存在的问题是什么?在框架中起什么作用? VLA技术从专用数据向通用数据演进,机器人轨迹数据已达1M episodes级别;模型参数规模从千亿级向端侧部署发展;性能上,VLA从单一场景泛化至多场景,提升技能迁移能力。
尽管端到端任务采集与训练有助于科研算法优化,但在通用机器人应用中,人为定义端到端任务易导致任务穷尽问题。在单任务下,物品位置泛化、背景干扰、场景变化仍是主要挑战,即便强大预训练模型仍需大量数据克服;多任务下,数据需求呈指数级增长,面临“数据爆炸”风险。
提出的三轮数据驱动的原子技能库方法可结合SOTA VLA模型,通过高级语义抽象模块将复杂子任务映射为结构化原子技能,并结合数据收集与VLA少样本学习高效构建技能库。VLA可塑性衡量模型从多本体迁移至特定本体的能力,泛化性则评估其应对物体、场景、空间变化的表现。
以RDT-1B作品为例,我们基于6000条开源数据及2000条自有数据微调VLA模型。测试结果表明,模型在物品和场景泛化上表现优异,但在物品位置泛化方面存在一定局限,且训练步数对最终性能影响显著。为进一步优化,团队进行了两项实验包括位置泛化能力提升及训练步长优化测试。这类VLA模型性能测试对于原子技能库构建至关重要,测试结果不仅优化了Prompt设计,也进一步增强了高级语义抽象模块在子任务映射与技能定义中的精准性。为什么构建原子技能库?怎样构建? 具身操作技能学习数据源包括互联网、仿真引擎和真实机器人数据,三者获取成本递增,数据价值依次提升。在多任务多本体机器人技能学习中,OpenVLA和Pi0依托预训练VLM,再用真实轨迹数据进行模态对齐并训练技能,而RDT-1B直接基于百万级机器人真实轨迹数据预训练,可适配不同本体与任务。
无论模型架构如何,真实轨迹数据仍是关键。原子技能库的构建旨在降低数据采集成本,同时增强任务适配能力,提升具身操作的通用性,以满足产业应用需求。
基于数据驱动的原子技能库构建方法,结合端到端具身操作VLA与具身规划VLP,旨在构建系统化的技能库。VLP将TASK A, B, C, ..., N分解为Sub-task #1, #2, ..., #a+1。高级语义抽象模块基于SOTA VLA模型测试可调整任务粒度,进一步将子任务映射为通用原子技能定义1, 2, ..., b+1,并通过数据收集与VLA少样本学习,构建包含1', 2', ..., b+1'的原子技能库。
面对新任务TASK N+1,若所需技能已在库中,则可直接执行;若缺失,则触发高级语义抽象模块,基于现有技能库进行原子技能定义更新,仅需对缺失的原子技能收集额外数据与VLA微调。随着原子技能库动态扩增,其适应任务范围不断增加。
相比传统TASK级数据采集,提出的原子技能库所需要的数据采集量根据任务难度成指数级下降,同时提升技能适配能力。
实验及结果分析 验证问题在相同物体点位下采集轨迹数据,所提方法能否以更少数据达到端到端方法性能?在收集相同数量的轨迹数据下,所提方法能否优于端到端方法?面对新任务,所提方法是否能够在不依赖或者少依赖新数据的条件下仍然有效?所提方法是否适用于不同VLA模型,并保持有效性和效率?实验设置针对上述问题,我们设计了四个挑战性任务,并在RDT-1B和Octo基准模型上,以Agilex双臂机器人进行测试。实验采用端到端方法和所提方法分别采集数据,以对比两者在数据利用效率和任务泛化能力上的表现。具体实验设置如下:
拿起香蕉并放入盘子端到端方法:从4个香蕉点位和2个盘子点位采集24条轨迹。所提方法:保持数据分布一致,分解为12条抓取香蕉轨迹和6条放置香蕉轨迹。为匹配端到端数据量,进一步扩大采样范围,从8个香蕉点位采集24条抓取轨迹,3个盘子点位采集24条放置轨迹。拿起瓶子并向杯中倒水端到端方法:从3个瓶子点位和3个杯子点位采集27条轨迹。所提方法:分解为9条抓取瓶子轨迹和9条倒水轨迹,确保数据分布一致。进一步扩大采样范围,从9个瓶子点位采集27条抓取轨迹,9个杯子点位采集27条倒水轨迹。拿起笔并放入笔筒端到端方法:从4个笔点位和2个笔筒点位采集24条轨迹。所提方法:分解为12条抓取笔轨迹和6条放置笔轨迹,保持数据分布一致。进一步扩大采样范围,从8个笔点位采集24条抓取轨迹,3个笔筒点位采集24条放置轨迹。按指定顺序抓取积木(红、绿、蓝)端到端方法:采集10条轨迹,固定积木位置,按顺序抓取红色、绿色、蓝色积木。所提方法:为匹配端到端数据量,分别采集10条抓取红色、绿色、蓝色积木轨迹,共30条。任务定义与可视化实验结果 前三个任务用于验证所提方法在数据效率和操作性能上的表现,第四个任务则评估其新任务适应能力。为确保公平性,每种实验设置均在Octo和RDT-1B上进行10次测试,对比端到端方法与所提方法(“Ours”和“Ours-plus”)。
如表1所示,“End-To-End”:原始端到端VLA方法;“Ours”:保持数据分布一致,但数据量更小;“Ours-plus”:保持数据量一致,但采集更多点位;“ID”:任务点位在训练数据分布内;“OOD”:任务点位超出训练数据分布。在第四个任务中,设定红-绿-蓝顺序抓取积木为已知任务,并采集数据训练模型。针对其他颜色顺序的未知任务,直接调用已训练的技能进行测试,以评估方法的泛化能力(见表2)。结果分析如下:
Q1: 从表1可见,Octo和RDT-1B在使用所提方法后,成功率与端到端方法相当甚至更高。在拿起瓶子并向杯中倒水任务中,OOD测试成功率提升20%,表明该方法在相同点位分布下,减少数据需求同时提升性能。表1:与原始端到端方法实验结果对比Q2: 在相同数据量下,所提方法显著提升成功率。例如,在拿起香蕉并放入盘子任务中,OOD情况下成功率提高40%,归因于从更多点位采集数据,增强模型泛化能力。Q3: 从表2可见,端到端方法仅适用于已知任务,无法泛化新任务,而所提方法能通过已有技能组合成功执行不同的新任务
表2:与原始端到端方法方块抓取任务实验结果对比Q4: 表1和表2进一步验证,所提方法在多种VLA模型上均提升数据效率、操作性能和新任务适应能力,适用于不同模型的泛化与优化。 小结团队提出的一种基于三轮数据驱动的原子技能库构建框架,旨在解决传统端到端具身操作策略带来的“数据爆炸”问题,为具身智能产业应用提供创新解决方案。
该框架具有广泛价值,可用于提升物流仓储、智能制造、医疗辅助等领域的自动化水平。例如,在医疗辅助和服务机器人领域,它能够增强自主交互能力,助力精准操作。
希望此项工作能够为行业提供重要启示,促进学术界与产业界的深度合作,加速具身智能技术的实际应用。我们诚挚邀请有兴趣的合作伙伴,与我们一起探索具身智能的未来。如果您对具身触觉模态、基于强化学习的运控与操作等领域感兴趣,欢迎与lidongjiang5@jd.com联系。
本篇关于《业内首创具身智能原子技能库架构揭秘》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于科技周边的相关知识,请关注golang学习网公众号!

- 上一篇
- requestAnimationFrame在JavaScript中的妙用技巧

- 下一篇
- 室女座巨型黑洞“复活”,行为怪异引关注
-
- 科技周边 · 人工智能 | 2小时前 | 个性化定制 笔灵AI写作 免费功能 付费功能 bilings.ai
- 笔灵AI写作官网攻略:免费注册即用
- 208浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 | 算力需求 国产AI大模型 国家超算互联网平台 MiniMax-Text-01 注册用户
- 国家超算平台发布超长文本模型
- 278浏览 收藏
-
- 科技周边 · 人工智能 | 5小时前 |
- Llama4刷榜惹争议,20万显卡仅此成绩?
- 275浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 笔灵AI生成答辩PPT
- 探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
- 12次使用
-
- 知网AIGC检测服务系统
- 知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
- 22次使用
-
- AIGC检测-Aibiye
- AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
- 30次使用
-
- 易笔AI论文
- 易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
- 38次使用
-
- 笔启AI论文写作平台
- 笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
- 35次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览