当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > NeurIPS2024 | OCR-Omni来了,字节&华师提出统一的多模态文字理解与生成大模型

NeurIPS2024 | OCR-Omni来了,字节&华师提出统一的多模态文字理解与生成大模型

来源:机器之心 2024-10-24 10:07:06 0浏览 收藏

来到golang学习网的大家,相信都是编程学习爱好者,希望在这里学习科技周边相关编程知识。下面本篇文章就来带大家聊聊《NeurIPS2024 | OCR-Omni来了,字节&华师提出统一的多模态文字理解与生成大模型》,介绍一下,希望对大家的知识积累有所帮助,助力实战开发!

研究背景与挑战

在人工智能领域,赋予机器类人的图像文字感知、理解、编辑和生成能力一直是研究热点。目前,视觉文字领域的大模型研究主要聚焦于单模态生成任务。尽管这些模型在某些任务上实现了统一,但在 OCR 领域的多数任务上仍难以达成全面整合。

例如,Monkey 等视觉语言模型(VLM)擅长文字检测、识别和视觉问答(VQA)等文本模态生成任务,却无法胜任文字图像的生成、抹除和编辑等图像模态生成任务。反之,以 AnyText 为代表的基于扩散模型的图像生成模型则专注于图像创建。因此,OCR 领域亟需一个能够统一多模态生成的大模型。

NeurIPS2024 | OCR-Omni来了,字节&华师提出统一的多模态文字理解与生成大模型

NeurIPS2024 | OCR-Omni来了,字节&华师提出统一的多模态文字理解与生成大模型

论文链接: https://arxiv.org/abs/2407.16364

代码开源: https://github.com/bytedance/TextHarmony

关键问题

多模态生成的内在矛盾

研究人员发现,多模态生成大模型面临视觉与语言模态之间的固有不一致性,这往往导致模型性能显著下滑。如图所示,在文本生成任务上,多模态生成模型相比单模态生成模型效果降低5%,在图像生成上降低了8%。为应对这一挑战,近期的一些研究采用了特定模态的监督微调,从而分别优化文字生成和图片生成的模型权重。然而,这种方法与统一视觉理解与生成的初衷相悖。

为解决这一难题,字节跳动与华东师范大学的联合研究团队提出了创新性的多模态生成模型 ——TextHarmony。该模型不仅精通视觉文本的感知、理解和生成,还在单一模型架构中实现了视觉与语言模态生成的和谐统一。

TextHarmony: 突破性贡献

TextHarmony 的核心优势在于其成功整合了视觉文本的理解和生成能力。传统研究中,这两类任务通常由独立模型处理。TextHarmony 通过融合这两大类生成模型,实现了视觉文字理解和生成的同步进行,从而统筹了 OCR 领域的多数任务。

研究表明,视觉理解和生成之间存在显著差异,直接整合可能导致严重的模态不一致问题。具体而言,多模态生成模型在文本生成(视觉感知、理解)和图像生成方面,相较于专门的单模态模型,性能出现明显退化。

NeurIPS2024 | OCR-Omni来了,字节&华师提出统一的多模态文字理解与生成大模型

数据显示,多模态生成模型在文本生成任务上较单模态模型效果降低 5%,图像生成任务上最高降低 8%。而 TextHarmony 成功缓解了这一问题,其在两类任务上的表现均接近单模态专家模型水平。

技术创新

TextHarmony 采用了 ViT、MLLM 和 Diffusion Model 的组合架构:

1.ViT 负责图像到视觉 token 序列的转换。

2.MLLM 处理视觉 token 和文本 token 的交叉序列,输出两类 token:

·文本 token 经文本解码器转化为文本输出。

·视觉 token 与文本 token 结合,作为 Diffusion Model 的条件指引,生成目标图像。

这种结构实现了多模态内容的全面理解与生成。

为克服训练过程中的模态不一致问题,研究者提出了 Slide-LoRA 技术。该方法通过动态整合模态特定和模态无关的 LoRA(Low-Rank Adaptation)专家,在单一模型中实现了图像和文本生成空间的部分解耦。

Slide-LoRA 包含一个动态门控网络和三个低秩分解模块:

·模态特定 LoRA 专家聚焦于特定模态(视觉或语言)的生成任务。

·模态无关 LoRA 专家处理跨模态的通用特征。

·动态门控网络根据输入特征,灵活调度不同专家的参与度。

NeurIPS2024 | OCR-Omni来了,字节&华师提出统一的多模态文字理解与生成大模型

DetailedTextCaps-100K: 高质量数据集

为提升视觉文本生成性能,研究团队开发了 DetailedTextCaps-100K 数据集。该集利用闭源 MLLM(Gemini Pro)生成详尽的图像描述,为模型提供了更丰富、更聚焦于视觉和文本元素的训练资源。

NeurIPS2024 | OCR-Omni来了,字节&华师提出统一的多模态文字理解与生成大模型

训练策略

TextHarmony 采用两阶段训练方法:

1.首阶段利用 MARIO-LAION 和 DocStruct4M 等图文对预训练对齐模块和图像解码器,构建基础的文本生成与图像生成能力。

2.次阶段运用视觉文本的生成、编辑、理解、感知四类数据进行统一微调。此阶段开放 ViT、对齐模块、图像解码器和 Slide-LoRA 的参数更新,以获得统一的多模态理解与生成能力。

实验评估

研究者对 TextHarmony 在视觉文本场景下进行了全面评估,涵盖理解、感知、生成与编辑四个维度:

1.视觉文本理解:TextHarmony 显著优于多模态生成模型,性能接近 Monkey 等专业文字理解模型。

NeurIPS2024 | OCR-Omni来了,字节&华师提出统一的多模态文字理解与生成大模型

2.视觉文本感知:在OCR定位任务上,TextHarmony超过了TGDoc、DocOwl1.5等知名模型。

NeurIPS2024 | OCR-Omni来了,字节&华师提出统一的多模态文字理解与生成大模型

3.视觉文本编辑与生成:TextHarmony 大幅领先于现有多模态生成模型,且与 TextDiffuser2 等专业模型相当。

NeurIPS2024 | OCR-Omni来了,字节&华师提出统一的多模态文字理解与生成大模型

文字生成效果对比

NeurIPS2024 | OCR-Omni来了,字节&华师提出统一的多模态文字理解与生成大模型

文字编辑效果对比

NeurIPS2024 | OCR-Omni来了,字节&华师提出统一的多模态文字理解与生成大模型

文字图像感知与理解可视化

NeurIPS2024 | OCR-Omni来了,字节&华师提出统一的多模态文字理解与生成大模型

总结与展望

TextHarmony 作为 OCR 领域的多功能多模态生成模型,成功统一了视觉文本理解和生成任务。通过创新的 Slide-LoRA 技术,它有效解决了多模态生成中的模态不一致问题,在单一模型中实现了视觉与语言模态的和谐统一。TextHarmony 在视觉文字感知、理解、生成和编辑方面展现出卓越性能,为复杂的视觉文本交互任务开辟了新的可能性。

这项研究不仅推动了 OCR 技术的进步,也为人工智能在理解和创造方面的发展提供了重要参考。未来,TextHarmony 有望在自动文档处理、智能内容创作、教育辅助等多个领域发挥重要作用,进一步推动人工智能的应用。

以上就是《NeurIPS2024 | OCR-Omni来了,字节&华师提出统一的多模态文字理解与生成大模型》的详细内容,更多关于入门,OCR技术的资料请关注golang学习网公众号!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
LRU(最近最少使用)缓存数据结构LRU(最近最少使用)缓存数据结构
上一篇
LRU(最近最少使用)缓存数据结构
如何使用altWinDirStat在Windows可视化回收存储
下一篇
如何使用altWinDirStat在Windows可视化回收存储
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 可图AI图片生成:快手可灵AI2.0引领图像创作新时代
    可图AI图片生成
    探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
    36次使用
  • MeowTalk喵说:AI猫咪语言翻译,增进人猫情感交流
    MeowTalk喵说
    MeowTalk喵说是一款由Akvelon公司开发的AI应用,通过分析猫咪的叫声,帮助主人理解猫咪的需求和情感。支持iOS和Android平台,提供个性化翻译、情感互动、趣味对话等功能,增进人猫之间的情感联系。
    32次使用
  • SEO标题Traini:全球首创宠物AI技术,提升宠物健康与行为解读
    Traini
    SEO摘要Traini是一家专注于宠物健康教育的创新科技公司,利用先进的人工智能技术,提供宠物行为解读、个性化训练计划、在线课程、医疗辅助和个性化服务推荐等多功能服务。通过PEBI系统,Traini能够精准识别宠物狗的12种情绪状态,推动宠物与人类的智能互动,提升宠物生活质量。
    32次使用
  • 可图AI 2.0:快手旗下新一代图像生成大模型,专业创作者与普通用户的多模态创作引擎
    可图AI 2.0图片生成
    可图AI 2.0 是快手旗下的新一代图像生成大模型,支持文本生成图像、图像编辑、风格转绘等全链路创作需求。凭借DiT架构和MVL交互体系,提升了复杂语义理解和多模态交互能力,适用于广告、影视、非遗等领域,助力创作者高效创作。
    33次使用
  • 毕业宝AIGC检测:AI生成内容检测工具,助力学术诚信
    毕业宝AIGC检测
    毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
    48次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码