多模态大模型学杂了能力反下降?新研究:MoE+通用专家解决冲突
哈喽!大家好,很高兴又见面了,我是golang学习网的一名作者,今天由我给大家带来一篇《多模态大模型学杂了能力反下降?新研究:MoE+通用专家解决冲突》,本文主要会讲到等等知识点,希望大家一起学习进步,也欢迎大家关注、点赞、收藏、转发! 下面就一起来看看吧!
通过微调,可以使通用大模型更加适配具体的行业应用。微调是指在通用大模型的基础上,使用特定行业的数据进行再训练,以优化模型在该行业的表现。通过微调,模型可以更好地理解和处理与行业相关的任务和领域特定的语言。这样可以提高模型在具体行业应用中的性能和准确度,
然而,最近的研究表明:
对于多模态大模型进行多任务指令微调时,可能会面临一些挑战。由于不同任务之间存在冲突,大模型可能会学得更多的错误知识,从而导致其泛化能力下降。这是因为在多任务微调过程中,不同任务的目标可能存在差异,模型需要在这些目标之间进行权衡和平衡。这可能会导致模型在某些任务上表现出色,但在其他任务上表现糟糕。为了克
△多模态指令微调存在任务冲突
举个例子,多模态问答任务通常需要简洁准确地回答问题,而文档理解任务则要求大模型提供尽可能详细的描述。
由于不同的下游任务指令导致数据分布的差异较大,使得一个大型模型难以在所有下游任务中都达到最佳性能。 这是因为不同的下游任务可能具有不同的数据特征和目标函数,因此它们对模型的要求也会有所不同。一个模型在一个任务上表现出色,并不意味着它在其他任务上也能表现出同样的优秀性能。 为了解决这个问题,可以考虑
要解决《文字玩出花》怀旧大扫除关卡的问题,首先需要仔细观察图像,找出与时代不符的细节。这些细节可能是物品、服装、建筑等方面的差异。一旦发现了一个不符合时代的细节,可以点击它进行标记。通常,每个关卡
香港科技大学、南方科技大学和华为诺亚方舟实验室的研究团队联合开展了一项研究。他们受到了MoE(混合专家模型)开源大模型Mixtral-8×7B的启发,提出了一种利用稀疏专家模型的方法,来构建一个具有更好下游任务泛化性能和更强理解能力的多模态大模型。
图片
好的,下面是《文字玩出花》怀旧大扫除关卡的通关攻略。 1. 仔细观察图像:打开关卡后,先仔细观察整个图像,注意细节和背景。 2. 寻找与时代不符的细节:在图像中寻找与时代不符的细节,比
多模态指令微调存在任务冲突
为了验证多模态指令微调中不同类型任务数据对模型性能的影响,研究人员将数据进行如下划分:
- VQA(视觉问答):VQAv2、OKVQA、A-OKVQA、OCRVQA,
- Captioning(图像描述):COCO Caption、Web CapFilt、TextCaps,
- Full(所有数据):VQA、Captioning、LLaVA-150k、VQG(视觉问题生成,基于VQA数据)。
基于以上数据,研究人员采用LoRA对InstructBLIP进行微调,获得3个专家模型,并在其他数据(Flickr30k-图像描述、GQA/SciQA/IconQA/TextVQA等不同类型视觉问答、HM/VSR等多模态分类或推理任务)上进行零样本测试和评估。
图片
从上图(右)中可以看出,在指令微调中,并非采用全量数据会取得最好效果,相反,只有三个下游任务(GQA,VSR,TextVQA)在全量数据专家下表现最好。
这说明,对于大部分任务来说,在指令微调过程中引入其他任务的数据,反而会降低模型性能,多模态指令微调存在任务冲突。
另一方面,实验中观察到,VQA和Captioning两个专家模型,在各自任务中取得了相较于全量专家更好的表现。这样的方法看似解决了任务冲突的问题,但存在以下局限:
- 不同训练任务的知识无法在任务专家之间共享;
- 训练的数据需要人为地划分,当训练数据种类较多时难以进行;
- 新任务来临时,需要人为判断使用哪一个任务专家。
为了解决以上局限,研究团队提出,可以利用稀疏专家模型(MoE),不同的专家处理不同的任务,并设计一种数据划分的方法,把相似的任务交给同一个专家处理。
基于指令聚类的稀疏专家多模态大模型
通过指令聚类划分数据
图片
在大型视觉-语言模型(LVLM)中,该文定义指令为所有的文本输入,如上图(左)C1-C4的文本。
这些指令描述了任务的意图、要求。因此,作者使用Kmeans将所有的指令聚为64类。
如上图(右)所示,指令的聚类信息可以有效表示数据的任务类型。这样做省去了人力划分数据的成本。
基于指令聚类信息进行混合LoRA专家路由
图片
和前面的任务专家相似,模型在该层的输出同样由冻结的LLM线性层以及微调的LoRA产生。
不同的是,这里利用数据的指令聚类信息来对混合LoRA进行路由。具体而言,对于的模型的输入,可以按照如下方式计算它的路由信息:
图片
其中,topk()(考虑k=1的情况)保持前k个最大项不变,并将其他的设置为0,C是可学习的类别的嵌入表征,C[xi]表示xi对应指令的聚类表征,Wgate是路由的线性参数。
通用专家提升模型泛化性
实验发现,上述的指令聚类LoRA专家的确缓解了任务冲突的问题,但由于一个专家可能只见过一部分任务,整个模型对下游任务的泛化性降低了。
图片
因此,该研究团队提出用通用专家来从所有数据中学习指令泛化能力。
与MoE不同,除了通过top1选择的任务专家,该方法还固定地激活一个通用专家,使得这个专家从所有的指令数据中学习。
因此,模型在该层输出为LLM原始冻结参数W,任务专家We和通用专家Wu的加权和。
图片
在这样的设计下,任务专家和通用专家的协同既提升了模型在和训练集相似任务的表现,又保障了模型对新任务的泛化能力。
实验效果
该论文遵循InstructBLIP的实验场景(数据使用、评估标准、训练细节),在13个训练数据集(包括VQA、Captioning、VQG等)上进行指令微调并在11个测试数据集上评估(训练数据集和测试数据集没有重叠)。
图片
由上表所示,引入该文章提出的方法(MoCLE)后,InstructBLIP相较于基线模型在所有下游任务上都有提升,其中,在VSR,IconQA,TextVQA和MSVD-QA的提升尤为明显。
图片
上图可视化了LLM某一层混合LoRA专家在不同数据下的路由结果,虚线上下方分别是训练和测试数据。(a)和(b)分别显示了使用指令聚类信息和指令token平均表征作为路由的结果。
可以看到,使用指令聚类信息路由时,数据在专家中出现了分化。例如专家0主要负责VQA相关任务,专家2主要负责Captioning相关任务,有效实现专家的差异化。另一方面,使用指令token平均表征作为条件时,不同任务对专家的激活是相似的,没有出现分化。
研究团队认为,稀疏专家多模态大模型+通用专家模块的组合,缓解了任务之间的冲突,还保证了稀疏模型对任务的泛化能力,使得多模态大模型能够更有效地适配不同的下游行业应用。
这是首个在多模态大模型指令微调中结合LoRA和稀疏专家模型(MoE)来缓解任务冲突并保持模型泛化能力的工作。
该工作证实了其应对复杂下游任务的有效性,并未多模态大模型的应用和发展开辟了新途径。
论文链接:
https://arxiv.org/abs/2312.12379
今天带大家了解了的相关知识,希望对你有所帮助;关于科技周边的技术知识我们会一点点深入介绍,欢迎大家关注golang学习网公众号,一起学习编程~

- 上一篇
- CrewAI:一个开源框架解析构建多代理的指南

- 下一篇
- 北京举办第十二届全球软件案例研究峰会TOP100!
-
- 科技周边 · 人工智能 | 7分钟前 |
- 10款神仙级AI工具,轻松搞定PPT,2024必备神器!
- 277浏览 收藏
-
- 科技周边 · 人工智能 | 8分钟前 |
- 豆包AI相亲吐槽图模板火了,三天点赞超50w!
- 432浏览 收藏
-
- 科技周边 · 人工智能 | 9分钟前 |
- Xmind+DeepSeek,手把手教你快速搭建专属知识图谱
- 132浏览 收藏
-
- 科技周边 · 人工智能 | 25分钟前 |
- Cursor+DeepSeek双剑合璧,代码生成&异常处理一网打尽
- 281浏览 收藏
-
- 科技周边 · 人工智能 | 28分钟前 |
- 10分钟搞定古风插画生成,DeepSeek让文案创作暴增10倍!
- 235浏览 收藏
-
- 科技周边 · 人工智能 | 43分钟前 |
- 百万级豪车尊界S800定档530震撼发布!
- 474浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 即梦AI专属水印这样设置!手把手教学快速添加水印
- 116浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- DeepSeek+Trello:手把手教你用AI搞定任务管理
- 498浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 手机DeepSeek同步有道云笔记教程,移动办公不迷路
- 290浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- DeepSeek教程!3步教你用AI做「黛玉梗图」,轻松爆火小红书!
- 200浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 |
- Audacity+DeepSeek,手把手教你音频剪辑+智能分析
- 338浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 茅茅虫AIGC检测
- 茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
- 56次使用
-
- 赛林匹克平台(Challympics)
- 探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
- 74次使用
-
- 笔格AIPPT
- SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
- 84次使用
-
- 稿定PPT
- 告别PPT制作难题!稿定PPT提供海量模板、AI智能生成、在线协作,助您轻松制作专业演示文稿。职场办公、教育学习、企业服务全覆盖,降本增效,释放创意!
- 76次使用
-
- Suno苏诺中文版
- 探索Suno苏诺中文版,一款颠覆传统音乐创作的AI平台。无需专业技能,轻松创作个性化音乐。智能词曲生成、风格迁移、海量音效,释放您的音乐灵感!
- 80次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览