当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军

科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军

来源:机器之心 2023-11-08 11:05:41 0浏览 收藏

“纵有疾风来,人生不言弃”,这句话送给正在学习科技周边的朋友们,也希望在阅读本文《科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军》后,能够真的帮助到大家。我也会在后续的文章中,陆续更新科技周边相关的技术文章,有好的建议欢迎大家在评论留言,非常感谢!

ICDAR 2023(国际文档分析与识别会议)作为文档图像分析识别领域最重要的国际会议之一,最近传来了令人振奋的消息:

科大讯飞研究院与中科大语音及语言信息处理国家工程研究中心(以下简称研究中心)在多行公式识别、文档信息定位与提取、结构化文本信息抽取三项比赛中获得四个冠军。

MLHME之冠:聚焦“多行书写”,复杂度上再突破

MLHME(多行公式识别比赛)考查输入包含手写数学公式的图像后,算法输出对应LaTex字符串正确率。值得一提的是,相比此前数学公式识别赛事,此次比赛业内首次将“多行书写”设为主要挑战对象,且不同于之前识别扫描、在线手写的公式,本次以识别拍照的手写多行公式为主。

科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军

科大讯飞研究院图文识别团队以67.9%的成绩赢得了冠军,并在主要评价指标—公式召回率上远远超过其他参赛团队

科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军

公式召回率与榜单中Submit Results相对应

多行公式相比单行结构复杂度更高,同一个字符在公式里多次出现时尺寸大小也会有变化;同时,比赛使用的数据集来自真实场景,拍照的手写公式图片更是存在质量低下、背景干扰、文字干扰、涂抹和批注干扰等问题。这些因素让比赛难度陡增。

科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军

公式结构复杂,占用多行

科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军

图片质量不高、批改干扰

针对公式结构复杂,占用多行问题,团队使用大卷积核的Conv2former作为编码器结构,扩大了模型的视野,更好地捕捉多行公式的结构特征;创新性提出基于transformer的结构化序列解码器SSD,显式对多行公式内部的层次关系做了精细化建模,极大提升了复杂结构的泛化性,更好地建模了结构化语义。

针对图片质量问题所引起的字符歧义问题,团队创新性提出了语义增强的解码器训练算法,通过语义和视觉的联合训练,让解码器具备内在的领域知识。当字符难以辨认时,模型能够自适应利用领域知识做出推理,给出最合理的识别结果。

针对字符尺寸变化大的问题,团队提出了一种自适应字符尺度估计算法和多尺度融合解码策略,极大提升了模型对字符大小变化的鲁棒性。

DocILE之冠:“行里挑一”,文档信息定位与提取比赛双赛道登顶榜首

DocILE(文档信息定位与提取比赛)评估机器学习方法在半结构化的商业文档中,对关键信息定位、提取和行项识别的性能。

该比赛分为KILE和LIR两个赛道任务。KILE任务需要定位文档中预定义类别的关键信息位置,LIR任务则在此基础上进一步将每个关键信息分组为不同的行项条目(Line Item),比如表格中某一行单个对象(数量、价格)等。讯飞与研究中心最终在两个赛道中获得冠军

科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军KILE赛道榜单

科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军

LIR赛道排行榜

科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军

左为KILE赛道说明,右为LIR赛道说明

从赛事官方给出的任务图示可以看出,文档中待抽取的信息种类非常繁杂。其中,KILE任务不仅需要提取预定义类别的关键信息,还要得到关键信息的具体位置;LIR任务中,一个行项在单个表格中可能有多行文本。加上此次赛事数据集中信息种类多、文档版式复杂多样,大大增加了挑战性。

联合团队在算法层面提出了两项技术创新方案:

在预训练阶段,我们设计了一个基于OCR质量的文档过滤器,通过从主办方提供的无标注文档中提取274万页的文档图像。然后,我们使用预训练语言模型来获取文档中每个文本行的语义表征,并使用掩码语句表征恢复任务,在不同的Top-K配置下进行预训练(GraphDoc模型中关于文档的注意力范围的一个超参数)

科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军

在数据集微调阶段,团队使用了预训练后的GraphDoc提取文本框的多模态表征,并进行分类操作。在分类结果的基础上,将多模态表征送入低层注意力融合模块进行实例的聚合,在实例聚集的基础上,使用高层注意力融合模块实现行项实例的聚集,所提出的注意力融合模块结构相同、但彼此不共享参数,可以同时用于KILE和LIR任务且具有很好的效果。

科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军

SVRD之冠:零样本票证结构化信息抽取任务第一,预训练模型大考验

SVRD(结构化文本信息抽取)比赛分为4个赛道子任务,讯飞与研究中心在难度颇高的零样本结构化信息抽取子赛道(Task3:E2E零样本结构化文本抽取)获得第一名

科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军

排名次序

在官方指定不同类型发票需要提取的关键要素背景下,该赛道要求参赛团队利用模型输出这些关键要素在图片中的对应内容,“零样本”则代表训练集和测试集的发票类型并无交集;赛道考查模型端到端预测准确率,取score1、score2加权平均值作为最终评价指标。

对于预训练模型,零样本提出了更高的要求。与此同时,在比赛中使用的发票版式多种多样,各个版式中的乘车站点、发车时间等要素名称各不相同。此外,发票照片存在着背景干扰、反光、文字重叠等问题,这进一步增加了识别和提取的难度

科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军

不同版式的发票

科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军

发票受到条纹背景的干扰

团队最初采用了复制-生成双分支解码策略来进行要素抽取模型,当前端OCR结果置信度较高时,直接复制OCR结果;而当OCR结果置信度较低时,则生成新的预测结果,以此缓解前端OCR模型所引入的识别错误

此外,团队还基于OCR结果提取句子级的graphdoc特征作为要素抽取模型输入,该特征融合了图像、文本、位置、版面多模态特征,相比于单模态的纯文本输入具有更强的特征表示。

团队在此基础上,还结合了UniLM、LiLT、DocPrompt等多个要素抽取模型,进一步提升了最终的要素抽取效果,使其在不同场景和语种下表现出更好的性能优势

教育、金融、医疗等已落地应用,助力大模型提升多模态能力

此次选择ICDAR 2023的相关赛事进行挑战,来源于科大讯飞在实际业务中的真实场景需求;赛事相关的技术也已经深入教育、金融、医疗、司法、智能硬件等领域,赋能多项业务与产品。

在教育领域,手写公式识别的技术能力被高频使用,机器能给予精准的识别、判断和批改。例如讯飞AI学习机中的个性化精准学、AI诊断;老师上课所使用的“讯飞智慧窗”教学大屏、学生的个性化学习手册等,都已发挥了很大成效;

科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军

不久前科大讯飞全球1024开发者节主论坛上发布的星火科研助手,三大核心功能之一的论文研读可实现智能解读论文,快速回答相关问题。后续在高精度公式识别基础上进阶有机化学结构式、图形、图标、流程图、表格等结构化场景识别的效果,这项功能也会更好助力科研工作者提升效率;

科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军

文档信息定位与抽取技术在金融领域得到广泛应用,如合同要素抽取与审核、银行票据要素抽取、营销内容消保审查等场景。这些技术可以实现文档或文件的数据解析、信息抽取和比对审核等功能,帮助业务数据快速录入、抽取和比对,从而提高审核过程的效率,降低成本

科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军

在这次1024主论坛上发布的个人AI健康助手是讯飞晓医。它不仅可以扫描检查单和化验单,并给出分析和建议,还可以扫描药盒,并进一步询问并提供辅助用药建议。对于体检报告,用户可以拍照上传,讯飞晓医可以识别关键信息,并综合解读异常指标,主动询问并提供更多帮助。这个功能背后依赖于文档信息定位与抽取技术的支持

科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军

科大讯飞的图文识别技术在算法方面不断突破,从单字识别、文本行识别,到更复杂的二维结构识别、篇章级识别。更强大的图文识别技术能够提升多模态大模型在图像描述、图像问答、识图创作、文档理解与处理等方面的效果和潜力

与此同时,图文识别技术也结合语音识别、语音合成、机器翻译等技术形成系统性创新,赋能产品应用后展现出更强大的功能与更明显的价值优势,相关项目也获得了2022年度吴文俊人工智能科技进步奖一等奖。新一程里,在ICDAR 2023数个比赛中“多点开花”,既是科大讯飞在图文识别理解技术深度上持续进步的回馈,也是广度上不断铺开的肯定。

本篇关于《科大讯飞ICDAR 2023:图文识别再创辉煌,收获四项冠军》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于科技周边的相关知识,请关注golang学习网公众号!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
如何实现MySQL底层优化:事务的并发控制和隔离级别选择如何实现MySQL底层优化:事务的并发控制和隔离级别选择
上一篇
如何实现MySQL底层优化:事务的并发控制和隔离级别选择
JAVA底层IO编程详解与实践
下一篇
JAVA底层IO编程详解与实践
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    26次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    21次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    23次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    23次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    25次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码