当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 中山大学HCP实验室新突破:用因果范式再升级多模态大模型

中山大学HCP实验室新突破:用因果范式再升级多模态大模型

来源:51CTO.COM 2023-04-25 19:12:30 0浏览 收藏

欢迎各位小伙伴来到golang学习网,相聚于此都是缘哈哈哈!今天我给大家带来《中山大学HCP实验室新突破:用因果范式再升级多模态大模型》,这篇文章主要讲到等等知识,如果你对科技周边相关的知识非常感兴趣或者正在自学,都可以关注我,我会持续更新相关文章!当然,有什么建议也欢迎在评论留言提出!一起学习!

中山大学人机物智能融合实验室(HCP)在 AIGC 及多模态大模型方面成果丰硕,在近期的 AAAI 2023、CVPR 2023 先后入选了十余篇,位列全球研究机构的第一梯队。

​其中一个工作实现了用因果模型来显著提升多模态大模型在调优中的可控及泛化性——《Masked Images Are Counterfactual Samples for Robust Fine-tuning》。

图片

链接:https://arxiv.org/abs/2303.03052

使用预训练的大规模模型在下游任务上进行微调是当前流行的深度学习范式。尤其是近期预训练语言大模型 ChatGPT 的出色表现,使得这套技术范式得到了广泛的认可。经过海量数据的预训练,这些预训练大模型能够适应现实环境中多变的数据分布,因而在通用场景中表现出较强的鲁棒性。

然而,当用下游场景数据对预训练大模型进行微调以适应特定应用任务时,绝大多数情况下这些数据具有单一性。以这些数据对预训练大模型进行微调训练,往往会降低模型鲁棒性,使基于预训练大模型的应用变得困难。特别是在视觉模型方面,由于图像的多样性远远超过语言,下游微调训练导致视觉相关的预训练大模型鲁棒性下降的问题尤其突出。

之前的研究方法通常通过模型集成等方式在模型参数层面隐式地保持微调后预训练模型的鲁棒性。但是,这些工作并没有分析微调导致模型分布外性能下降的本质原因,也没有明确解决上述大模型微调后鲁棒性下降的问题。

该工作以跨模态大模型为基础,从因果关系的角度分析了预训练大模型鲁棒性损失的本质原因,并据此提出了一种能够显著提升模型鲁棒性的微调训练方法。该方法使得模型在适应下游任务的同时,仍能保持较强的鲁棒性,更好地满足实际应用需求。

以 OpenAI 在 2021 年发布的跨模态预训练大模型 CLIP(Contrastive Language–Image Pre-training)为例:CLIP 是一种基于对比的图片 - 文本联合学习的跨模态预训练大模型,是 Stable Diffusion 等生成式模型的基础。该模型通过包含约 4 亿个图像 - 文本对的海量多源数据进行训练,在一定程度上学习到了一些对于分布变化鲁棒的因果关系。

然而,当用特征单一的下游数据对 CLIP 进行微调时,容易破坏模型学习到的这些因果知识,因为训练图像的非语义表征和语义表征是高度纠缠的。例如,将 CLIP 模型迁移应用到 “农场” 这一下游场景时,许多训练图像中的 “奶牛” 都在草地上。此时,微调训练可能使模型学习到依赖草地这一非 “奶牛” 的语义表征来预测图像的语义。然而,这种相关性并不一定是真实的,例如 “奶牛” 也可能出现在公路上。因此,模型在进行微调训练后,其鲁棒性会降低,应用时的输出结果可能变得极不稳定,缺乏可控性。

基于团队多年的大模型搭建和训练经验,该工作从因果关系的角度重新审视了预训练模型微调导致鲁棒性下降的问题。基于因果建模与分析,该工作提出了一种基于图像掩码构造反事实样本,并通过掩码图像学习提高模型鲁棒性的微调训练方法。

具体而言,为了打破下游训练图像中的假性相关,该工作提出了一种基于类激活图(CAM)的方法掩盖并替换图像特定区域的内容,用以操纵图像的非语义表征或语义表征,产生反事实样本。微调模型可以通过蒸馏的方式学习模仿预训练模型对这些反事实样本的表征,从而更好地解耦语义因素与非语义因素的影响,提高对下游领域中分布偏移的适应能力。


图片

实验表明,该方法能够显著提高预训练模型在下游任务中的性能,同时在提升鲁棒性方面相较于现有大模型微调训练方法有显著优势。

该工作的重要意义是在一定程度上打开了预训练大模型从深度学习范式中继承的 “黑盒子”,是解决大模型的 “可解释性” 和 “可控性” 问题的重要探索,让我们离切实可享受的由预训练大模型带领的生产力提升越来越近。

中山大学 HCP 团队自 Transformer 机制问世起,从事大模型技术范式研究多年,致力于提升大模型的训练效率和引入因果模型来解决大模型的 “可控性” 问题。团队多年来自主研究开发了多个视觉、语言、语音和跨模态的预训练大模型,与华为诺亚方舟实验室联合开发的 “悟空” 跨模态大模型 (链接:https://arxiv.org/abs/2202.06767) 即是其中的典型案例。

团队简介

中山大学人机物智能融合实验室 (HCP Lab) 在多模态认知计算、机器人与嵌入式系统、元宇宙与数字人、可控内容生成等领域开展体系化研究,并深入应用场景打造产品原型,输出大量原创技术及孵化创业团队。实验室由 IAPR Fellow 林倞教授于 2010 年创办,获得中国图像图形学会科技一等奖、吴文俊自然科学奖、省级自然科学一等奖等荣誉;培养了梁小丹、王可泽等国家级青年人才。

今天关于《中山大学HCP实验室新突破:用因果范式再升级多模态大模型》的内容介绍就到此结束,如果有什么疑问或者建议,可以在golang学习网公众号下多多回复交流;文中若有不正之处,也希望回复留言以告知!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
修复:Windows 11 的动态刷新率不起作用修复:Windows 11 的动态刷新率不起作用
上一篇
修复:Windows 11 的动态刷新率不起作用
30亿跑赢GPT-3的1750亿,谷歌新模型引热议,然而却把Hinton年龄搞错了
下一篇
30亿跑赢GPT-3的1750亿,谷歌新模型引热议,然而却把Hinton年龄搞错了
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    2次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    2次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    2次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    9次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    10次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码