哈工大南洋理工提出全球首个「多模态DeepFake检测定位」模型:让AIGC伪造无处可藏
IT行业相对于一般传统行业,发展更新速度更快,一旦停止了学习,很快就会被行业所淘汰。所以我们需要踏踏实实的不断学习,精进自己的技术,尤其是初学者。今天golang学习网给大家整理了《哈工大南洋理工提出全球首个「多模态DeepFake检测定位」模型:让AIGC伪造无处可藏》,聊聊,我们一起来看看吧!
由于如Stable Diffusion等视觉生成模型的快速发展,高保真度的人脸图片可以自动化地伪造,制造越来越严重的DeepFake问题。
随着如ChatGPT等大型语言模型的出现,大量假本文也可以容易地生成并恶意地传播虚假信息。
为此,一系列单模态检测模型被设计出来,去应对以上AIGC技术在图片和文本模态的伪造。但是这些方法无法较好应对新型伪造场景下的多模态假新闻篡改。
具体而言,在多模态媒体篡改中,各类新闻报道的图片中重要人物的人脸(如图 1 中法国总统人脸)被替换,文字中关键短语或者单词被篡改(如图 1 中正面短语「is welcome to」被篡改为负面短语「is forced to resign」)。
这将改变或掩盖新闻关键人物的身份,以及修改或误导新闻文字的含义,制造出互联网上大规模传播的多模态假新闻。

图1. 本文提出检测并定位多模态媒体篡改任务(DGM4)。与现有的单模态DeepFake检测任务不同,DGM4不仅对输入图像-文本对预测真假二分类,也试图检测更细粒度的篡改类型和定位图像篡改区域和文本篡改单词。除了真假二分类之外,此任务对篡改检测提供了更全面的解释和更深入的理解。

表1: 所提出的DGM4与现有的图像和文本伪造检测相关任务的比较
检测并定位多模态媒体篡改任务
为了解此新挑战,来自哈工大(深圳)和南洋理工的研究人员提出了检测并定位多模态媒体篡改任务(DGM4)、构建并开源了DGM4数据集,同时提出了多模态层次化篡改推理模型。目前,该工作已被CVPR 2023收录。

论文地址:https://arxiv.org/abs/2304.02556
GitHub:https://github.com/rshaojimmy/MultiModal-DeepFake
项目主页:https://rshaojimmy.github.io/Projects/MultiModal-DeepFake
如图1和表1所示,检测并定位多模态媒体篡改任务(Detecting and Grounding Multi-Modal Media Manipulation (DGM4))和现有的单模态篡改检测的区别在于:
1)不同于现有的DeepFake图像检测与伪造文本检测方法只能检测单模态伪造信息,DGM4要求同时检测在图像-文本对中的多模态篡改;
2)不同于现有DeepFake检测专注于二分类,DGM4进一步考虑了定位图像篡改区域和文本篡改单词。这要求检测模型对于图像-文本模态间的篡改进行更全面和深入的推理。
检测并定位多模态媒体篡改数据集
为了支持对DGM4研究,如图2所示,本工作贡献了全球首个检测并定位多模态媒体篡改(DGM4)数据集。

图2. DGM4数据集
DGM4数据集调查了4种篡改类型,人脸替换篡改(FS)、人脸属性篡改(FA)、文本替换篡改(TS)、文本属性篡改(TA)。
图2展示了 DGM4 整体统计信息,包括(a) 篡改类型的数量分布;(b) 大多数图像的篡改区域是小尺寸的,尤其是对于人脸属性篡改;(c) 文本属性篡改的篡改单词少于文本替换篡改;(d)文本情感分数的分布;(e)每种篡改类型的样本数。
此数据共生成23万张图像-文本对样本,包含了包括77426个原始图像-文本对和152574个篡改样本对。篡改样本对包含66722个人脸替换篡改,56411个人脸属性篡改,43546个文本替换篡改和18588个文本属性篡改。
多模态层次化篡改推理模型
本文认为多模态的篡改会造成模态间细微的语义不一致性。因此通过融合与推理模态间的语义特征,检测到篡改样本的跨模态语义不一致性,是本文应对DGM4的主要思路。

图3. 提出的多模态层次化篡改推理模型HierArchical Multi-modal Manipulation rEasoning tRansformer (HAMMER)
基于此想法,如图3所示,本文提出了多模态层次化篡改推理模型HierArchical Multi-modal Manipulation rEasoning tRansformer (HAMMER)。
此模型建立在基于双塔结构的多模态语义融合与推理的模型架构上,并将多模态篡改的检测与定位细粒度层次化地通过浅层与深层篡改推理来实现。
具体而言,如图3所示,HAMMER模型具有以下两个特点:
1)在浅层篡改推理中,通过篡改感知的对比学习(Manipulation-Aware Contrastive Learning)来对齐图像编码器和文本编码器提取出的图像和文本单模态的语义特征。同时将单模态嵌入特征利用交叉注意力机制进行信息交互,并设计局部块注意力聚合机制(Local Patch Attentional Aggregation)来定位图像篡改区域;
2)在深层篡改推理中,利用多模态聚合器中的模态感知交叉注意力机制进一步融合多模态语义特征。在此基础上,进行特殊的多模态序列标记(multi-modal sequence tagging)和多模态多标签分类(multi-modal multi-label classification)来定位文本篡改单词并检测更细粒度的篡改类型。
实验结果
如下图,实验结果表明研究团队提出的HAMMER与多模态和单模态检测方法相比,都能更准确地检测并定位多模态媒体篡改。




图4. 多模态篡改检测和定位结果可视化

图5. 关于篡改文本的模型篡改检测注意力可视化
图4提供了一些多模态篡改检测和定位的可视化结果,说明了HAMMER可以准确地同时进行篡改检测与定位任务。图5提供了关于篡改单词的模型注意力可视化结果,进一步展示了HAMMER是通过关注与篡改文本语义不一致性的图像区域来进行多模态篡改检测和定位。
总结
- 本工作提出了一个新的研究课题:检测并定位多模态媒体篡改任务,来应对多模态假新闻。
- 本工作贡献了首个大规模的检测并定位多模态媒体篡改数据集,并提供了详细丰富的篡改检测与定位的标注。团队相信它可以很好地帮助未来多模态假新闻检测的研究。
- 本工作提出了一个强大的多模态层次化篡改推理模型作为此新课题很好的起始方案。
本工作的代码和数据集链接都已分享在本项目的GitHub上,欢迎大家Star这个GitHub Repo, 使用DGM4数据集和HAMMER来研究DGM4问题。DeepFake领域不只有图像单模态检测,还有更广阔的多模态篡改检测问题亟待大家解决!
好了,本文到此结束,带大家了解了《哈工大南洋理工提出全球首个「多模态DeepFake检测定位」模型:让AIGC伪造无处可藏》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多科技周边知识!
4 门完整且价格合理的 Windows 11 在线培训课程
- 上一篇
- 4 门完整且价格合理的 Windows 11 在线培训课程
- 下一篇
- 联系人未同步到 Apple Watch?怎么修
-
- 科技周边 · 人工智能 | 53分钟前 | 抖音AI
- 抖音AI角色生成剧情教程详解
- 147浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 | ai志愿助手
- AI志愿助手怎么发招募帖
- 269浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 特斯拉欧洲销量大降,市场份额仅1.6%
- 470浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 | 腾讯AI
- 腾讯AI官网入口及平台链接汇总
- 402浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 | 瑞达写作
- 瑞达写作官网入口及安装教程
- 217浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 | java 编程
- 即梦软件配置要求详解
- 168浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 |
- 文心一言官网入口及最新网址分享
- 242浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 | Claude3
- Claude3数据隐私设置与保护指南
- 440浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 | AI视频创作 AI视频软件
- AI视频特效合成教程与工具推荐
- 473浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 | DeepSeek
- DeepSeek教育优化方案解析
- 312浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 | GrokAI
- GrokAI聊天机器人集成部署教程
- 288浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 | kimi ai
- KimiAI官网入口与使用教程
- 108浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 485次学习
-
- ChatExcel酷表
- ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
- 3223次使用
-
- Any绘本
- 探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
- 3436次使用
-
- 可赞AI
- 可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
- 3467次使用
-
- 星月写作
- 星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
- 4575次使用
-
- MagicLight
- MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
- 3845次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览

