当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 新标题:北航团队提出具身智能新架构,实现大型无人机的操控

新标题:北航团队提出具身智能新架构,实现大型无人机的操控

来源:51CTO.COM 2023-12-15 08:42:54 0浏览 收藏

本篇文章向大家介绍《新标题:北航团队提出具身智能新架构,实现大型无人机的操控》,主要包括,具有一定的参考价值,需要的朋友可以参考一下。

进入多模态时代,大模型也会操纵无人机了!

当视觉模块捕捉到启动条件时,大模型这个“大脑”会生成动作指令,然后无人机可以迅速准确地执行

新标题:北航团队提出具身智能新架构,实现大型无人机的操控

周尧明教授领导的北京航空航天大学智能无人机团队的研究人员,提出了一种基于多模态大模型的具身智能体架构

目前,这种结构已经用于控制无人机

新标题:北航团队提出具身智能新架构,实现大型无人机的操控

这种新的智能体表现如何,又有哪些技术细节呢?

“智能体即大脑”

研究团队利用大模型对多模态数据进行理解,将真实物理世界的照片、声音、传感器数据等多源信息融合,以使智能体能够感知周围环境,并作出相应的行为操作

同时,团队提出了一套“Agent as Cerebrum,Controller as Cerebellum”(智能体即大脑,控制器即小脑)的控制架构:

智能体作为大脑这一决策生成器,专注于生成高层级的行为。 重写后的句子:作为大脑的决策生成器,智能体专注于生成高层次的行为

作为小脑的运动控制器,控制器的主要职责是将高层行为(如预期目标点)转化为低层系统命令(如旋翼转速)

具体来说,研究团队认为这一成果主要有三项贡献。

应用于实际的新型系统架构

研究团队提出了一种新的系统架构,可以应用于实际的机器人。该架构将基于多模态大模型的智能体具象化为大脑

而机器人运动规划器与控制器则被具象化为小脑,机器人的感知系统类比为人的眼、耳等信息收集器,机器人的执行机构类比为人的手等执行器。

新标题:北航团队提出具身智能新架构,实现大型无人机的操控

△图1 硬件系统架构

这些节点通过ROS相连,通过ROS中消息的订阅与发布或服务的请求与响应实现通信,区别于传统的端到端的机器人大模型控制。

这一架构使得Agent可以专注于高层级命令的产生,对于高层级任务具备更强的智能性,对于实际的执行具备更好的鲁棒性和可靠性。

新标题:北航团队提出具身智能新架构,实现大型无人机的操控

需要重写的内容是:△图2 软件系统架构 重写后的内容:软件系统架构如图2所示

新型智能体

在这一架构下,作者构建了作为大脑的一种智能体AeroAgent。

该智能体主要包括三个部分:

  • 一个自动计划生成模块,具有多模态感知监测能力,同时擅长进行待机模式下的应急突发事件处理。
  • 一个多模态数据记忆模块,可以用于多模态记忆检索和反思,为智能体赋予少样本学习能力。
  • 一个具身智能动作模块,可以建立具身智能体与ROS上其他模块进行稳定控制的桥梁,这一模块提供了对于ROS上其他节点以操作为桥梁进行访问的能力。

同时,为了完成一个动作,可能需要多次交互操作以从传感器获取执行该动作所必需的参数,以确保智能体能够根据综合态势感知和所具备的执行器来稳定输出具体的行动

新标题:北航团队提出具身智能新架构,实现大型无人机的操控

需要重写的内容是:△图3 AeroAgent模块架构 重写后的内容:△图3 AeroAgent 模块架构设计

连接大模型和ROS的桥梁

为了给具身智能体和ROS机器人系统建立桥梁,让Agent产生的操作能够正确地、稳定地发送给ROS并被其他节点成功执行,同时让其他节点所提供的信息让LMM能够读取与理解,团队设计了了ROSchain——

一个将LLMs/LMMs与ROS连接起来的桥梁

ROSchain通过一套模块和应用程序接口(APIs)简化了大型模型与机器人传感装置、执行单元和控制机制的集成,为智能体接入ROS系统提供了一个稳定的中间件。

为什么选择无人机

研究团队给出了三个原因,解释了为什么他们选择了无人机来进行该系统架构的测试和模拟

首先,如今LMMs中所蕴含的web-scale的世界知识,多为第三人称视角,人型机器人等领域的具身智能是类似于以人类为主体出发的第一人称视角。

无人机上的相机,尤其是下视相机,更像是第三人称视角(上帝视角)的有机体智能

另一方面,现阶段的LMMs无论是模型部署还是API服务,通常受限于计算资源导致响应有一定的延迟。

无人机的任务规划由于其可以悬停,具备应对延迟的能力,这对于自动驾驶等领域是一个应用的障碍

这两点都导致目前技术发展水平下无人机适合作为先驱进行相关理论与应用的验证。

第二,目前工业无人机领域,如山火救援、农林植保、无人放牧、电力巡检等,多由飞手与专家配合实际操作,智能化任务执行具有工业需求。

第三,从未来发展看,多智能体协同合作在物流、建筑、工厂等领域具备较为明显的需求。

而在这种领域中,无人机作为“上帝视角”的具身智能体,适合作为中央节点的领导者进行任务的分配,其他机器人可看作无人机的执行器的一环,所以这一研究也具有未来的发展前景。

团队使用airgen的仿真器进行了模拟实验,并同时选择了DRL等方式作为对照组。以下是实验结果:

新标题:北航团队提出具身智能新架构,实现大型无人机的操控

在野外火灾搜救的情景中,AeroAgent在标准化分数下获得了100分的优异成绩,平均每步为2.04分

而单纯调用LLM或基于DRL的智能体都只获得了29.4分,平均每步0.2,不足AeroAgent的十分之一。

新标题:北航团队提出具身智能新架构,实现大型无人机的操控

需要重写的内容是:△4-1号图,山火救援现场

在着陆任务中,AeroAgent也以97.4的总分和48.7的每步平均分超过了其他模型。

新标题:北航团队提出具身智能新架构,实现大型无人机的操控

需要被改写的内容是:△图4-2 海上机坪着陆场景

而在风机巡检的测试中,AeroAgent直接成为了唯一能完成该任务的模型。

新标题:北航团队提出具身智能新架构,实现大型无人机的操控

△图4-3 风力电机巡检场景

在导航任务上,AeroAgent 4.44每个步骤的分数分别为DRL和纯LLM的40倍和近10倍

新标题:北航团队提出具身智能新架构,实现大型无人机的操控

需要重新写的内容是:△图4-4 Airgen仿真实验

团队还在真实场景中进行了无人机系统的测试,以一个简单的受困群众引导实验为例进行了案例研究。

新标题:北航团队提出具身智能新架构,实现大型无人机的操控

需要进行改写的内容是:△ 图5 引导受困群众案例实验

团队目前正以这一工作为基础,在某高原牦牛牧场进行无人放牧智能无人机的实验,探索其实际应用的可能性,并将以“予智能以具身”为目标,进行其他机器人/多机器人合作的智能体落地应用探索。

论文地址:https://arxiv.org/abs/2311.15033

今天关于《新标题:北航团队提出具身智能新架构,实现大型无人机的操控》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于AI,模型的内容请关注golang学习网公众号!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
Magic 5系列和Magic 4系列成为首批体验荣耀MagicOS 8.0内测的幸运用户Magic 5系列和Magic 4系列成为首批体验荣耀MagicOS 8.0内测的幸运用户
上一篇
Magic 5系列和Magic 4系列成为首批体验荣耀MagicOS 8.0内测的幸运用户
2023年最新车型:捷尼赛思G80,豪华与科技的完美结合
下一篇
2023年最新车型:捷尼赛思G80,豪华与科技的完美结合
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 茅茅虫AIGC检测:精准识别AI生成内容,保障学术诚信
    茅茅虫AIGC检测
    茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
    103次使用
  • 赛林匹克平台:科技赛事聚合,赋能AI、算力、量子计算创新
    赛林匹克平台(Challympics)
    探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
    112次使用
  • SEO  笔格AIPPT:AI智能PPT制作,免费生成,高效演示
    笔格AIPPT
    SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
    122次使用
  • 稿定PPT:在线AI演示设计,高效PPT制作工具
    稿定PPT
    告别PPT制作难题!稿定PPT提供海量模板、AI智能生成、在线协作,助您轻松制作专业演示文稿。职场办公、教育学习、企业服务全覆盖,降本增效,释放创意!
    110次使用
  • Suno苏诺中文版:AI音乐创作平台,人人都是音乐家
    Suno苏诺中文版
    探索Suno苏诺中文版,一款颠覆传统音乐创作的AI平台。无需专业技能,轻松创作个性化音乐。智能词曲生成、风格迁移、海量音效,释放您的音乐灵感!
    110次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码