多模态遥感大模型的探索与实践,蚂蚁集团遥感大模型负责人王剑带来深度解读
从现在开始,努力学习吧!本文《多模态遥感大模型的探索与实践,蚂蚁集团遥感大模型负责人王剑带来深度解读》主要讲解了等等相关知识点,我会在golang学习网中持续更新相关的系列文章,欢迎大家关注并积极留言建议。下面就先一起来看一下本篇正文内容吧,希望能帮到你!
7月5日,在世界人工智能大会组委会办公室、上海市徐汇区人民政府指导下,由上海人工智能实验室、本站、全球高校人工智能学术联盟主办的 2024 WAIC 云帆奖暨人工智能青年论坛成功举办。论坛汇聚来自斯坦福大学、牛津大学、UCLA、加州大学、苏黎世联邦理工学院、香港大学、清华大学、北京大学、上海交通大学等海内外高校、研究机构及企业的30余位往届及新晋云帆奖得主线下参会,凝聚国际青年AI科学家的智慧,积极探索AI能力边界,为中国AI发展蓝图贡献新生力量。蚂蚁集团遥感大模型负责人王剑作作为2024 WAIC 云帆奖代表之一在论坛上发表主题为「多模态遥感大模型的探索与实践」的主题演讲。
王剑总结了遥感大模型发展的契机和当前业界的进展,并分享了蚂蚁集团基于蚂蚁百灵大模型平台研发的20亿参数多模态遥感模型SkySense,以及SkySense的开源计划。通过在数据、模型架构和无监督预训练算法等方面的技术创新,SkySense在土地利用监测、地物变化检测等7种常见遥感感知任务,17项测评中均名列第一。同时,王剑还介绍了SkySense在农村金融、蚂蚁森林林地保护等场景的应用。
以下是王剑的演讲实录:
大家下午好!我是来自蚂蚁集团的王剑。非常高兴能在云帆奖论坛上分享蚂蚁集团在多模态遥感大模型方向的探索和实践。 我的分享从以下三个方面展开:一是研究背景,二是蚂蚁集团研发的多模态遥感大模型SkySense,三是基于SkySense的应用。
大模型的出现带来生成式人工智能快速地发展,但现在在工业界,距离规模化应用还非常遥远。虽然大模型的出现打开了AI新世界的大门,但是我们认为只有将基于大模型的创新应用深入到千行百业中,实现生产力的变革,才能带来AI新技术范式内在价值的真正释放。这样的思考下,蚂蚁集团积极布局大模型的技术和应用。
在基础能力方面,我们建设了一个万卡集群的算力系统,并重点关注大模型安全力和知识力。首先,安全力方面,蚂蚁集团自研蚁天鉴平台,为大模型的安全提供一体化解决方案,从而保证蚂蚁集团的大模型安全可信。在基础能力之上,我们建设了百灵语言大模型和百灵多模态大模型,并基于这两个基础的大模型,根据蚂蚁集团业务的特点,我们重点关注大模型在金融、医疗、民生、安全、遥感、代码等行业的应用,以此服务消费者和企业客户,从而推动可信智能,服务产业发展。整个体系还是非常庞大的,接下来我用大模型在遥感方面的应用作为切入点,跟大家分享我们在整个大模型领域的一些思考和实践。
语言以及视觉大模型的发展为遥感大模型的研发提供了很多重要参考。比如大语言模型,当它拓展到多模态领域之后,之前的一些视觉任务,比如OCR,VQA等任务都表现出很好的效果。在纯视觉大模型方面,类似SAM这样的算法,在分类、检测、分割的任务上表现出很强的性能。遥感领域主要解决的任务也是分类、检测、分割,自然而然的想法是把视觉大模型成功的经验应用在遥感领域。
另一方面,随着遥感技术的高速发展,遥感领域持续生产了海量的多时相的遥感数据,这些数据有跟自然影像比较像的可见光影像,光谱信息比较多的多光谱数据,还有雷达SAR影像,这些数据来自不同的卫星,不同的传感器,我们可以将他们视为不同模态的数据。这些数据都是没有经过标注的,而且标注这些数据不仅费时费力,而且很多情况下只有依赖于专家经验才能进行。只有借助无监督的算法,才能把这些数据的价值给充分发挥出来。近年来,业界出现了很多遥感影像数据获取的渠道,比如欧空局哥白尼平台,谷歌GEE平台,中国资源卫星中心的数据平台,这些平台都为我们获得遥感数据提供了便利。综上,遥感领域有很多易获得的数据,再结合视觉大模型的成功经验,这些因素为遥感大模型的研发提供很好的契机和动力。
这张图展示了近年来发布的遥感大模型。大家可以看到,从2021年开始业界就有用无监督预训练的算法做遥感影像的识别,这里面有像SeCo这样的模型。随后越来越多的公司和机构参与进来,这里面有很多代表性的工作,比如2022年中国科学院空天院发布的RingMo模型,2023年Satlas模型,前不久复旦大学发布的GRAFT模型。这一幅图里面也可以看到几个明显趋势,模型的数据和参数的规模越来越大,性能越来越强。从最早的支持单模态的数据,到现在融合多模态的数据,从最早的只能覆盖单数据源的影像,到现在可以融合多数据源的影像,从早期的仅支持单张静态影像的解译,到融合整个时序影像的信息。整个趋势跟语言和视觉大模型的发展趋势是一致的,可以预见接下来肯定会出现性能更强,参数量更大的遥感大模型。
回到蚂蚁,蚂蚁为什么会做遥感大模型?因为蚂蚁有很多的金融业务,其中一个是农村金融。大家在金融行业,如果问什么最难,我相信99%的人一定会说是农村金融最难。农村金融主体客户就是农民,农民不同于公司白领,有很好的信用数据。农民跟小微企业主相比,缺乏银行认可的抵押物。此外,银行在农村网点覆盖非常少,没办法规模化线下地调以确定农民的资产。这背后主要的痛点是,作为农民主要资产的土地价值,没法大规模数字化。
针对这个痛点,蚂蚁旗下网商银行在2019年做了一套利用卫星遥感和AI图像识别的资产评估系统,具体是通过卫星遥感影像结合人工智能的算法,识别农户田地种了什么庄稼,种的多大,种的好不好等信息,通过这些信息综合地分析农户种植情况,从而确定资产价值,给他提供信贷服务。早期以识别主粮作物为主,水稻、玉米、小麦等,服务了百万级农户。
当我们把这套系统推向苹果、柑橘等经济作物时,识别遇到一些难题。因为经济作物相比主粮作物,种植更加稀疏,种植方式更加多样,而且品类非常长尾,比如说主粮作物种类只有几类,经济作物可以达到几十类之多,所以在全国范围内识别如此多的农作物种类,在遥感领域都是难解的问题。从技术视角分析,我们可以使用少样本学习、多模态时序算法、通用表征提升模型泛化性能的方式来提升模型效果,而这些技术特点恰恰是基础模型具备的特点,所以在这样的情况下,我们决定研发遥感大模型。
下面总结一下蚂蚁集团做遥感大模型的契机和动力。
技术层面上,基础模型的技术快速发展,而且现在具备商业化的潜力。数据层面上,遥感领域有海量丰富的遥感数据,为遥感大模型研发奠定基础。业务层面上,可以满足蚂蚁多模态、多时序、多任务场景的需求。在这些因素的驱动下,蚂蚁集团联合武汉大学遥感学院研发了多模态遥感大数据SkySense。
为了训练这个模型,我们采集了分布于全球的2150万组样本,每一组样本都包含了高分光学、时序光学、雷达SAR影像。这些数据覆盖全球40多个国家和地区,覆盖土地达到878万平方公里,有300TB。
在模型结构上,为了更好的融合不同模态的信息,我们设计了多粒度对比学习的方式,针对遥感影像的特点,提出了时空感知嵌入的算法。这些对提升遥感基础模型的性能都是非常有帮助的。
遥感领域还有另外一个特点,一整张遥感影像通常非常大,没有办法同时放到GPU里面做训练,所以业界通常的做法就是将整个遥感影像切成一个一个小块,以适配GPU的显存。这样做有一个明显的问题,对每一个小块训练来说都会丢掉上下文信息。针对这种情况,我们也发展了一个地理空间敏感的上下文学习算法,可以隐式生成时空敏感的地学知识。
目前,SkySense的参数规模达到20.6亿,模型训练方式上,除了常用的无监督对比学习预训练方式外,我们还针对遥感影像的特点,提出了通过时空解耦来联合高分光学,时序光学,时序SAR等数据通路的互监督学习与生成式学习的方法,以灵活支持下游不同模态,不同时序组合的遥感解译任务。目前SkySense在土地监测利用、目标检测等17类评测数据集都达到好的效果,相关论文被CVPR2024(IEEE国际计算机视觉与模式识别会议)收录。
训练这个模型需要投入很多存储、算力以及人力资源,我们非常希望跟业界共享SkySense,以发挥它的价值,并促进整个遥感解译领域的发展。今年6月15日,我们已经开始定向地给一些科研机构试用遥感的大模型。在使用过程中,大家也有很多反馈,比如有的反馈说20亿参数太大,很多场景并不需要那么大参数的模型。针对这种情况,我们研发了一套算法,通过一次预训练,可以产生多个尺寸的小模型,而且对于每一个小模型而言,都比直接训练这个尺寸的模型效果会更好。
在实际的产业应用中,仅仅有模型的权重参数远远不够,还必须要有与之相匹配的数据系统和产品系统,才能真正发挥大模型的价值。这是蚂蚁集团遥感技术的大图,在数据层面上我们研发了时空数据库,用来管理不同模态,不同来源的数据,以支持遥感大模型高效的训练和推理。此外,我们联合武汉大学遥感学院,研发了国产遥感数据预处理系统,通过摄影测量遥感一体化技术,来大幅提升国产数据的质量。在产品方面,我们研发了mEarth智能遥感工作台,这个工作台可以一站式进行数据资产管理,数据生产加工,模型的训练和业务应用能力的搭建,从而能够高效灵活地支持下游各种应用场景的接入。
接下来分享SkySense的应用实践。在前面提到的农村金融场景,通过卫星遥感以及遥感大模型识别的方式,我们能够精准地识别不同时期农作物的种类,以及是否受到病虫害等信息,还能分析出这个农作物正处在什么生长周期,根据不同的生长周期匹配多样化的金融服务,从而为农民提供更好信贷的支持。
蚂蚁森林已经种了4.75亿棵树,守护4800平方公里的社会公益保护地,要保护这么多林地,必须借助科技手段。我们通过卫星遥感和无人机航拍,结合遥感大模型识别的方式,高效监测蚂蚁森林林地的状态,实现数字化的生态保护和修复。
碳汇的计算测量是ESG领域非常重要的话题,现在的碳汇计算严重依赖人工,阻碍了碳汇交易的发展,我们试验通过卫星遥感和大模型技术,开发一套零人工干预或者降低人工干预的碳汇系统方案,尝试做出一个林区变化监控和生物量增量估算系统。
这是在森林保护项目中,我们通过遥感大模型支持自然风化的变化检测和人为破坏的变化检测,从而实现大规模林地定期监测和保护。
这是通过遥感大模型对吉林四平市主粮作物识别的结果,可以看到,在这种种植情况比较复杂的区域,遥感大模型也能够在像素级别做出精准识别。
这是在陕西洛川,在这种地形结构复杂的区域,SkySense对苹果种植识别的准确率也可以达到95%以上。
同时,我们还用SkySense对全球区域的夜光数据进行了分析,展示不同区域经济活跃度的情况,明显看到上海区域经济非常活跃。
以上就是我的分享,谢谢大家!
本篇关于《多模态遥感大模型的探索与实践,蚂蚁集团遥感大模型负责人王剑带来深度解读》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于科技周边的相关知识,请关注golang学习网公众号!

- 上一篇
- 如何在golang框架中使用代理模式实现代码复用?

- 下一篇
- 如何在golang框架中利用元编程实现代码复用?
-
- 科技周边 · 人工智能 | 7小时前 | 字节跳动 数据中心
- 字节跳动计划在巴西建数据中心
- 345浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- UFO²—微软新推Windows桌面Agent
- 372浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- Pad.ws—AI开发神器,白板与代码编辑器完美融合
- 328浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 |
- 3月纯电动车销量:ModelY夺冠,小米SU7第五
- 125浏览 收藏
-
- 科技周边 · 人工智能 | 12小时前 |
- 即梦ai社交媒体导出教程及平台格式适配
- 282浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 美图AI抠图
- 美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
- 18次使用
-
- PetGPT
- SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
- 15次使用
-
- 可图AI图片生成
- 探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
- 43次使用
-
- MeowTalk喵说
- MeowTalk喵说是一款由Akvelon公司开发的AI应用,通过分析猫咪的叫声,帮助主人理解猫咪的需求和情感。支持iOS和Android平台,提供个性化翻译、情感互动、趣味对话等功能,增进人猫之间的情感联系。
- 44次使用
-
- Traini
- SEO摘要Traini是一家专注于宠物健康教育的创新科技公司,利用先进的人工智能技术,提供宠物行为解读、个性化训练计划、在线课程、医疗辅助和个性化服务推荐等多功能服务。通过PEBI系统,Traini能够精准识别宠物狗的12种情绪状态,推动宠物与人类的智能互动,提升宠物生活质量。
- 38次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览