北大具身智能新成果:无需训练,听指令就能灵活走位
来到golang学习网的大家,相信都是编程学习爱好者,希望在这里学习科技周边相关编程知识。下面本篇文章就来带大家聊聊《北大具身智能新成果:无需训练,听指令就能灵活走位》,介绍一下,希望对大家的知识积累有所帮助,助力实战开发!
北京大学董豪团队具身导航最新成果来了:
无需额外建图和训练,只需说出导航指令,如:
Walk forward across the room and walk through the panty followed by the kitchen. Stand at the end of the kitchen
我们就能控制机器人灵活移动。
在此,机器人靠的是主动与大模型构成的“专家团队”沟通完成指令分析、视觉感知、完成估计和决策测试等一系列视觉语言导航关键任务。
目前项目主页和论文都已上线,代码即将推出:
机器人如何根据人类指令导航?
视觉语言导航涉及到一系列子任务,包括指令分析,视觉感知,完成估计和决策测试。
这些关键任务需要不同领域知识,它们环环相扣决定机器人的导航能力。
受到现实中专家讨论行为的启发,北大董豪团队提出DiscussNav导航系统。
作者首先以提示方式赋予LLM(大语言模型)和MLM(多模态大模型)专家角色和特定任务,激活它们的领域知识和能力,由此构建具备不同特长的视觉导航专家团队。
然后,作者设计了讨论问题语料库和讨论机制,遵循该机制,由LLM驱动的导航机器人可以主动发起一系列与视觉导航专家的讨论。
在每一步移动前,导航机器人都会与专家讨论来理解人类指令中要求的动作和提及的物体标志。
进而依据这些物体标志的类型有倾向性地对周围环境进行感知,指令完成情况估计,由此做出初步的移动决策。
在决策过程中,导航机器人会根据Chain-of-Thought(思维链)同时生成N个独立的预测结果,当这些预测结果之间不一致时,机器人会向决策测试专家求助,筛选出最终的移动决策。
从这个过程我们可以看到,相比传统方法需要进行额外的预训练,这个方法通过与大模型专家交互指导机器人根据人类指令移动,直接解决了机器人导航训练数据稀缺的问题。
更进一步,正是由于这个特点,它也实现了零样本能力,只要遵循以上讨论流程,就能follow多样的导航指令。
以下是DiscussNav在经典的视觉语言导航数据集Room2Room上的表现。
可以看到,它显著高于所有零样本方法,甚至超过两个经过训练的方法。
作者进一步在Turtlebot4移动机器人上开展真实室内场景导航实验。
凭借专家角色扮演和讨论激发出的大模型强大的语言和视觉泛化能力,DiscussNav在真实世界的表现明显优于之前最优的零样本方法和经过预训练微调的方法, 展现出良好的sim-to-real迁移能力。
通过实验,作者进一步发现,DiscussNav产生了4个强大的能力:
1、识别开放世界物体,比如“白色桌子上的机械手臂”,“椅子上的泰迪熊”。
2、识别细粒度的导航标志物体,比如“厨房柜台上的植物”,“桌上的纸箱”。
3、纠正其它专家在讨论中回复的错误信息,比如标志提取专家在从导航动作序列提取导航标志前会检查并纠正被错误分解的动作序列。
4、排除不一致的移动决策,比如决策测试专家们可以根据当前环境信息从DiscussNav预测的多个不一致的移动决策中选择最合理的一个作为最终移动决定。
“仿真和大模型先验是Free Lunch”
通讯作者董豪在之前的报告中提出,深入探索如何有效利用仿真数据和大模型从海量数据中学习到的先验知识是未来具身智能研究的发展方向。
目前受限于数据规模和探索真实环境的高昂成本,具身智能研究仍将重点关注仿真平台实验和仿真数据训练。
近期大模型的进展为具身智能提供新方向,合理发掘和利用大模型中存在的语言常识和物理世界先验将推动具身智能发展。
论文地址: https://arxiv.org/abs/2309.11382
到这里,我们也就讲完了《北大具身智能新成果:无需训练,听指令就能灵活走位》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于机器人,视觉的知识点!

- 上一篇
- 2023“湾区文采会”元宇宙数字文化创想会举行

- 下一篇
- 国内最大开源模型发布,无条件免费商用!参数650亿,基于2.6万亿token训练
-
- 科技周边 · 人工智能 | 1分钟前 |
- 即梦AI封面导出教程缩略图生成攻略
- 489浏览 收藏
-
- 科技周边 · 人工智能 | 13分钟前 |
- 豆包生成Python注释模板的技巧
- 433浏览 收藏
-
- 科技周边 · 人工智能 | 14分钟前 |
- EchoMimicV3发布:蚂蚁集团多模态数字人框架上线
- 338浏览 收藏
-
- 科技周边 · 人工智能 | 17分钟前 |
- GitHubCopilot安装与使用技巧全解析
- 211浏览 收藏
-
- 科技周边 · 人工智能 | 36分钟前 |
- 小白AI剪辑7天速成全攻略
- 492浏览 收藏
-
- 科技周边 · 人工智能 | 37分钟前 |
- AI数据恢复工具怎么用?豆包辅助教程分享
- 291浏览 收藏
-
- 科技周边 · 人工智能 | 55分钟前 |
- 豆包AI多轮对话配置与优化技巧
- 462浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 盛大挖角代季峰,筹建AGI公司对标DeepSeek
- 238浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 | 用户体验 内容生成 DecktopusAI 预约转化率 咨询服务页
- DecktopusAI如何提升咨询转化率?
- 442浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 511次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 498次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 千音漫语
- 千音漫语,北京熠声科技倾力打造的智能声音创作助手,提供AI配音、音视频翻译、语音识别、声音克隆等强大功能,助力有声书制作、视频创作、教育培训等领域,官网:https://qianyin123.com
- 504次使用
-
- MiniWork
- MiniWork是一款智能高效的AI工具平台,专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具,提供精准智能解决方案,让复杂工作简单高效。
- 472次使用
-
- NoCode
- NoCode (nocode.cn)是领先的无代码开发平台,通过拖放、AI对话等简单操作,助您快速创建各类应用、网站与管理系统。无需编程知识,轻松实现个人生活、商业经营、企业管理多场景需求,大幅降低开发门槛,高效低成本。
- 492次使用
-
- 达医智影
- 达医智影,阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”,仅一次CT扫描即可高效识别多种癌症、急症及慢病,为疾病早期发现提供智能、精准的AI影像早筛解决方案。
- 512次使用
-
- 智慧芽Eureka
- 智慧芽Eureka,专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景,通过专家级AI Agent精准执行任务,智能化工作流解放70%生产力,让您专注核心创新。
- 501次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览