规模小、效率高:DeepMind推出多模态解决方案Mirasol 3B
科技周边不知道大家是否熟悉?今天我将给大家介绍《规模小、效率高:DeepMind推出多模态解决方案Mirasol 3B》,这篇文章主要会讲到等等知识点,如果你在看完本篇文章后,有更好的建议或者发现哪里有问题,希望大家都能积极评论指出,谢谢!希望我们能一起加油进步!
多模态学习面临的主要挑战之一是需要融合文本、音频、视频等异构的模态,多模态模型需要组合不同来源的信号。然而,这些模态具有不同的特征,很难通过单一模型来组合。例如,视频和文本具有不同的采样率
最近,来自 Google DeepMind 的研究团队将多模态模型解耦成多个独立的、专门的自回归模型,根据各种模态的特征来处理输入。
具体来说,该研究提出了一个名为Mirasol3B的多模态模型。Mirasol3B由时间同步的音频和视频自回归组件以及用于上下文模态的自回归组件组成。这些模态不一定在时间上对齐,但是按照顺序排列
论文地址:https://arxiv.org/abs/2311.05698
Mirasol3B 在多模态基准测试中达到了 SOTA 水平,优于规模更大的模型。通过学习更紧凑的表征,控制音频 - 视频特征表征的序列长度,并根据时间对应关系进行建模,Mirasol3B 能够有效满足多模态输入的高计算要求。
方法简介
Mirasol3B 是一个音频 - 视频 - 文本多模态模型,其中将自回归建模解耦成时间对齐模态(例如音频、视频)的自回归组件,以及针对非时间对齐的上下文模态(例如文本)的自回归组件。Mirasol3B 使用交叉注意力权重来协调这些组件的学习进程。这种解耦使得模型内部的参数分布更合理,也为模态(视频和音频)分配了足够的容量,并使得整体模型更加轻量。
根据图1所示,Mirasol3B由两个主要的学习组件组成:自回归组件和输入组合组件。其中,自回归组件旨在处理几乎同步的多模态输入,例如视频和音频,以便及时地进行输入组合
在重写内容时,需要将原始意思保持不变,并将语言改写为中文。 研究提出将时间对齐的模态分割成时间段,在时间段中学习音频-视频联合表征。具体而言,该研究提出了一种名为「Combiner」的模态联合特征学习机制。「Combiner」将同一时间段内的模态特征进行融合,生成更紧凑的表征
「Combiner」从原始的模态输入中提取初级的时空表示,捕捉视频的动态特性,并结合与其共时的音频特征,模型可以在不同的速率接收多模态输入,在处理较长的视频时表现良好。
「Combiner」有效地满足了模态表征既要高效又要信息量丰富的需求。它可以充分涵盖视频与其他同时发生的模态中的事件和活动,并能够用于后续的自回归模型,学习长期依赖关系。
为了处理视频和音频信号,并适应更长的视频 / 音频输入,它们被分割成(在时间上大致同步)的小块,再通过「Combiner」学习联合视听表示。第二个组件处理上下文,或时间上未对齐的信号,如全局文本信息,这些信息通常仍然是连续的。它也是自回归的,并使用组合的潜在空间作为交叉注意力输入。
学习组件包含视频和音频,其参数为3B;而没有音频的组件则为2.9B。其中,大多数参数用于音视频自回归模型。Mirasol3B通常处理128帧的视频,也可以处理更长的视频,例如512帧
由于设计了分区和「Combiner」的模型架构,增加更多帧,或增加块的大小、数目等,只会使参数略有增加,解决了更长视频需要更多参数、更大的内存的问题。
实验及结果
该研究在标准 VideoQA 基准、长视频 VideoQA 基准和音频 + 视频基准上对 Mirasol3B 进行了测试评估。
在 VideoQA 数据集 MSRVTTQA 上的测试结果如下表 1 所示,Mirasol3B 超越了目前的 SOTA 模型,以及规模更大的模型,如 PaLI-X、Flamingo。
在长视频问答方面,该研究在 ActivityNet-QA、NExTQA 数据集上对 Mirasol3B 进行了测试评估,结果如下表 2 所示:
在最后,该研究选择了KineticsSound、VGG-Sound和Epic-Sound进行音频-视频基准测试,并采用开放式生成评估。实验结果如下表3所示:
感兴趣的读者可以阅读论文原文,了解更多研究内容。
终于介绍完啦!小伙伴们,这篇关于《规模小、效率高:DeepMind推出多模态解决方案Mirasol 3B》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布科技周边相关知识,快来关注吧!

- 上一篇
- 预测:Hugging Face CEO揭示2024年AI行业的六大重大变革!

- 下一篇
- 机器人ETF(159770):连续7日获资金净流入!机器人国产替代空间相对广阔
-
- 科技周边 · 人工智能 | 1分钟前 | CEO 营收 Photronics 光掩模 亚洲业务
- PhotronicsQ2营收2.11亿美元,新高管加盟!
- 400浏览 收藏
-
- 科技周边 · 人工智能 | 3分钟前 |
- 蚂蚁集团开源Ming-lite-omni大模型,轻松搞定AI各种任务!
- 128浏览 收藏
-
- 科技周边 · 人工智能 | 4分钟前 |
- DeepSeekAI教你玩转小红书爆款标题,新手也能快速上手!
- 155浏览 收藏
-
- 科技周边 · 人工智能 | 8分钟前 |
- 2025必备!DeepSeek满血版功能开启+超快运行保姆级教程
- 230浏览 收藏
-
- 科技周边 · 人工智能 | 9分钟前 |
- 豆包AI怎么换风格?手把手教你设置超全口语化&专业模式
- 245浏览 收藏
-
- 科技周边 · 人工智能 | 17分钟前 |
- PerplexityxSheets:手把手教你接入实时网络数据
- 107浏览 收藏
-
- 科技周边 · 人工智能 | 22分钟前 |
- 豆包AI高阶玩法!手把手教你用经典台词做爆款互动测试图
- 239浏览 收藏
-
- 科技周边 · 人工智能 | 29分钟前 | 浙江世宝
- 浙江世宝自研智能转向,轻松掌控智能驾驶&无人驾驶!
- 418浏览 收藏
-
- 科技周边 · 人工智能 | 35分钟前 |
- AI生成证件照?手把手教你黑科技原理
- 128浏览 收藏
-
- 科技周边 · 人工智能 | 35分钟前 |
- 深度测评!七大平台DeepSeek-R1满血版API使用教程
- 403浏览 收藏
-
- 科技周边 · 人工智能 | 38分钟前 | 酷赛科技 精益生产
- 酷赛科技精益生产大表彰,有你认识的吗?
- 454浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 茅茅虫AIGC检测
- 茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
- 46次使用
-
- 赛林匹克平台(Challympics)
- 探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
- 67次使用
-
- 笔格AIPPT
- SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
- 77次使用
-
- 稿定PPT
- 告别PPT制作难题!稿定PPT提供海量模板、AI智能生成、在线协作,助您轻松制作专业演示文稿。职场办公、教育学习、企业服务全覆盖,降本增效,释放创意!
- 72次使用
-
- Suno苏诺中文版
- 探索Suno苏诺中文版,一款颠覆传统音乐创作的AI平台。无需专业技能,轻松创作个性化音乐。智能词曲生成、风格迁移、海量音效,释放您的音乐灵感!
- 75次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览