达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力
在科技周边实战开发的过程中,我们经常会遇到一些这样那样的问题,然后要卡好半天,等问题解决了才发现原来一些细节知识点还是没有掌握好。今天golang学习网就整理分享《达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力》,聊聊,希望可以帮助到正在努力赚钱的你。
纯文本大模型方兴未艾,多模态领域也开始涌现出多模态大模型工作,地表最强的 GPT-4 具备读图的多模态能力,但是迟迟未向公众开放体验,于是乎研究社区开始在这个方向上发力研究并开源。MiniGPT-4 和 LLaVA 问世不久,阿里达摩院便推出 mPLUG-Owl ,一个基于模块化实现的多模态大模型。
mPLUG-Owl 是阿⾥巴巴达摩院 mPLUG 系列的最新工作,延续了 mPLUG 系列的模块化训练思想,把 LLM 升级为一个多模态大模型。在 mPLUG 系列工作中,之前的 E2E-VLP 、mPLUG 、mPLUG-2 分别被 ACL2021 、EMNLP2022、ICML2023 录用,其中 mPLUG 工作在 VQA 榜单首超人类的成绩。
今天要介绍的是 mPLUG-Owl,该工作不仅通过大量 cases 展示出优秀的多模态能力,还第一次针对视觉相关的指令理解提出一个全⾯的测试集 OwlEval,通过人工评测对比了已有模型,包括 LLaVA 、MiniGPT-4 、BLIP-2 以及系统类 MM-REACT 等工作,实验结果表明 mPLUG-Owl 展示出更优的多模态能力,尤其在多模态指令理解能力、多轮对话能力、知识推理能力等方⾯表现突出
论文链接:https://arxiv.org/abs/2304.14178
代码链接:https://github.com/X-PLUG/mPLUG-Owl
ModelScope体验地址:
https://modelscope.cn/studios/damo/mPLUG-Owl/summary
HuggingFace体验地址:
https://huggingface.co/spaces/MAGAer13/mPLUG-Owl
多模态能力展示
我们把 mPLUG-Owl 与现有工作进行对比来感受一下 mPLUG-Owl 的多模态效果,值得一提的是,该工作中评比的测试样例基本上都来自已有工作,避免了 cherry pick 问题。
下图 6 展示了 mPLUG-Owl 很强的多轮对话能力。
从图 7 中可以发现, mPLUG-Owl 具有很强的推理能力。
如图 9 展示了一些笑话解释例⼦。
在该工作中,除了评测对比外,该研究团队还观察到 mPLUG-Owl 初显一些意想不到的能力,比如多图关联、多语⾔、文字识别和文档理解等能力。
如图 10 所示,虽然在训练阶段并没有进行多图关联数据的训练,mPLUG-Owl 展现出了一定的多图关联能力。
如图 11 所示,尽管 mPLUG-Owl 在训练阶段仅使用了英文数据,但其展现出了有趣的多语⾔能力。这可能是因为 mPLUG-Owl 中的语⾔模型使用了 LLaMA,从而出现了这一现象。
尽管 mPLUG-Owl 没有在带有标注的文档数据上进行训练,但其仍然展现出了一定的文字识别和文档理解能力,测试结果如图 12 所示。
方法介绍
该工作提出的 mPLUG-Owl,其整体架构如图 2 所示。
模型结构:它由视觉基础模块
(开源的 ViT-L)、视觉抽象模块
以及预训练语⾔模型
( LLaMA-7B) 组成。视觉抽象模块将较⻓的、细粒度的图像特征概括为少量可学习的 Token,从而实现对视觉信息的⾼效建模。⽣成的视觉 Token 与文本查询一起输⼊到语⾔模型中,以⽣成相应的回复。
模型训练:采用两阶段的训练方式
第一阶段:主要目的也是先学习视觉和语⾔模态间的对⻬。不同于先前的工作, mPLUG-Owl 提出冻住视觉基础模块会限制模型关联视觉知识和文本知识的能力。 因此 mPLUG-Owl 在第一阶段只冻住 LLM 的参数,采用 LAION-400M, COYO-700M, CC 以及 MSCOCO 训练视觉基础模块和视觉摘要模块。
第⼆阶段:延续 mPLUG 和 mPLUG-2 中不同模态混合训练对彼此有收益的发现,Owl 在第⼆阶段的指令微调训练中也同时采用了纯文本的指令数据 (52kfrom Alpaca+90k from Vicuna+50k from Baize) 和多模态的指令数据 (150k from LLaVA)。作者通过详细的消融实验验证了引⼊纯文本指令微调在指令理解等方⾯带来的收益。第⼆阶段中视觉基础模块、视觉摘要模块和原始 LLM 的参数都被冻住,参考 LoRA,只在 LLM 引⼊少量参数的 adapter 结构用于指令微调。
实验结果
SOTA 对比
为了比较不同模型的多模态能力,该工作构建一个多模态指令评测集 OwlEval。由于⽬前并没有合适的自动化指标,参考 Self-Intruct 对模型的回复进行人工评测,打分规则为:A="正确且令人满意";B="有一些不完美,但可以接受";C="理解了指令但是回复存在明显错误";D="完全不相关或不正确的回复"。
对比结果如下图 3 所示,实验证明 Owl 在视觉相关的指令回复任务上优于已有的 OpenFlamingo 、BLIP-2 、LLaVA、MiniGPT-4。
多维度能力对比
多模态指令回复任务中牵扯到多种能力,例如指令理解、视觉理解、图⽚上文字理解以及推理等。为了细粒度地探究模型在不同能力上的⽔平,本文进一步定义了多模态场景中的 6 种主要的能力,并对 OwlEval 每个测试指令人工标注了相关的能力要求以及模型的回复中体现了哪些能力。
结果如下表格 6 所示,在该部分实验,作者既进行了 Owl 的消融实验,验证了训练策略和多模态指令微调数据的有效性,也和上一个实验中表现最佳的 baseline— MiniGPT4 进行了对比,结果显示 Owl 在各个能力方⾯都优于 MiniGPT4。
好了,本文到此结束,带大家了解了《达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多科技周边知识!

- 上一篇
- 一种轻松且客观介绍大模型方式,避免过度解读

- 下一篇
- 谷歌将在开发者大会上发布PaLM 2 展示创意写作和编码能力
-
- 和谐的白猫
- 这篇技术贴出现的刚刚好,楼主加油!
- 2023-05-28 03:58:46
-
- 甜蜜的水壶
- 这篇技术贴真是及时雨啊,好细啊,写的不错,码起来,关注楼主了!希望楼主能多写科技周边相关的文章。
- 2023-05-23 06:42:33
-
- 潇洒的寒风
- 很好,一直没懂这个问题,但其实工作中常常有遇到...不过今天到这,帮助很大,总算是懂了,感谢up主分享技术文章!
- 2023-05-20 21:40:24
-
- 威武的鸵鸟
- 好细啊,mark,感谢老哥的这篇文章内容,我会继续支持!
- 2023-05-16 09:06:52
-
- 科技周边 · 人工智能 | 17小时前 |
- 小米SU7订单18万未交付,月产能暴增6倍
- 361浏览 收藏
-
- 科技周边 · 人工智能 | 17小时前 | iPhone17Pro 天蓝色 M4MacBookAir
- iPhone17Pro/ProMax弃钛金属,拥抱天蓝色
- 272浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 谱乐AI
- 谱乐AI是由青岛艾夫斯科技有限公司开发的AI音乐生成工具,采用Suno和Udio模型,支持多种音乐风格的创作。访问https://yourmusic.fun/,体验智能作曲与编曲,个性化定制音乐,提升创作效率。
- 7次使用
-
- Vozo AI
- 探索Vozo AI,一款功能强大的在线AI视频换脸工具,支持跨性别、年龄和肤色换脸,适用于广告本地化、电影制作和创意内容创作,提升您的视频制作效率和效果。
- 7次使用
-
- AIGAZOU-AI图像生成
- AIGAZOU是一款先进的免费AI图像生成工具,无需登录即可使用,支持中文提示词,生成高清图像。适用于设计、内容创作、商业和艺术领域,提供自动提示词、专家模式等多种功能。
- 7次使用
-
- Raphael AI
- 探索Raphael AI,一款由Flux.1 Dev支持的免费AI图像生成器,无需登录即可无限生成高质量图像。支持多种风格,快速生成,保护隐私,适用于艺术创作、商业设计等多种场景。
- 7次使用
-
- Canva可画AI生图
- Canva可画AI生图利用先进AI技术,根据用户输入的文字描述生成高质量图片和插画。适用于设计师、创业者、自由职业者和市场营销人员,提供便捷、高效、多样化的视觉素材生成服务,满足不同需求。
- 8次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览