当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 基于T5的两阶段的多任务Text-to-SQL预训练模型MIGA

基于T5的两阶段的多任务Text-to-SQL预训练模型MIGA

来源:51CTO.COM 2023-04-14 22:42:37 0浏览 收藏

对于一个科技周边开发者来说,牢固扎实的基础是十分重要的,golang学习网就来带大家一点点的掌握基础知识点。今天本篇文章带大家了解《基于T5的两阶段的多任务Text-to-SQL预训练模型MIGA》,主要介绍了,希望对大家的知识积累有所帮助,快点收藏起来吧,否则需要时就找不到了!

越来越多的工作证明了预训练语言模型(PLM)中蕴含着丰富的知识,针对不同的任务,用合适的训练方式来撬动 PLM,能更好地提升模型的能力。在 Text-to-SQL 任务中,目前主流的生成器是基于语法树的,需要针对 SQL 语法进行设计。

近期,网易互娱 AI Lab 联合广东外语外贸大学和哥伦比亚大学基于预训练语言模型 T5 的预训练方式,提出了两阶段的多任务预训练模型 MIGA。MIGA 在预训练阶段引入三个辅助任务,并将他们组织成统一的生成任务范式,可以将所有的 Text-to-SQL 数据集统一进行训练;同时在微调阶段,MIGA 针对多轮对话中的错误传递问题进行 SQL 扰动,提升了模型生成的鲁棒性。

目前对于 Text-to-SQL 的研究,主流的方法主要是基于 SQL 语法树的 encoder-decoder 模型,可以确保生成的结果一定符合 SQL 语法,但是需要针对 SQL 语法进行特殊设计。最近也有一些关于 Text-to-SQL 的研究是基于生成式语言模型,可以很方便地继承预训练语言模型的知识和能力。

为了降低对基于语法树的依赖,更好地挖掘预训练语言模型的能力,该研究在预训练 T5 模型的框架下,提出了一个两阶段的多任务 Text-to-SQL 预训练模型 MIGA (MultI-task Generation frAmework)。

MIGA 分为两阶段的训练过程:

  • 在预训练阶段,MIGA 使用与 T5 相同的预训练范式,额外提出了三个与 Text-to-SQL 相关的辅助任务,从而更好地激发预训练语言模型中的知识。该训练方式可以将所有的 Text-to-SQL 的数据集进行统一,扩充了训练数据的规模;而且也可以灵活地去设计更多有效的辅助任务,进一步发掘预训练语言模型的潜在知识。
  • 在微调阶段,MIGA 针对多轮对话和 SQL 中容易存在的错误传递问题,在训练过程中对历史 SQL 进行扰动,使得生成当前轮次的 SQL 效果更加稳定。

MIGA 模型在两个多轮对话 Text-to-SQL 公开数据集上表现优于目前最好的基于语法树的模型,相关研究已经被 AAAI 2023 录用。

图片

论文地址:https://arxiv.org/abs/2212.09278

MIGA 模型细节

图片

图 1 MIGA 模型图。

多任务预训练阶段

该研究主要参考 T5 的预训练方式,基于已经训练好的 T5 模型,设计了四个预训练任务:

  • Text-to-SQL 主任务:上图中的黄色部分,通过设计 Prompt 为”translate dialogue to system query”,然后以一些 special tokens 来将历史对话、数据库信息和 SQL 语句拼接输入到 T5-encoder 中,让 decoder 直接输出对应的 SQL 语句;
  • 相关信息预测:上图中的绿色部分,设计 Prompt 为”translate dialogue to relevant column”,T5-encoder 的输入也是与主任务一致,decoder 则需要输出与当前问题相关的数据表和列,目的是加强模型对 Text-to-SQL 的理解;
  • 当前轮次的操作预测:上图中的灰色部分,设计 Prompt 为”translate dialogue to turn switch”,这个任务主要是针对多轮对话中的上下文理解进行设计,对比上一轮的对话和 SQL,decoder 需要输出当前对话的目的做了哪些变化,比如图中例子是 where 条件进行了改动;
  • 最终对话预测:上图中的蓝色部分,设计 Prompt 为”translate dialogue to final utterance”,目的是为了让模型去更好的理解上下文对话,需要 decoder 输出整个多轮对话下来,最后时刻的 SQL 对应的一句完整问题描述。

通过这样的一个统一的训练方式设计,MIGA 可以通用而又灵活地去处理更多与任务相关的额外任务,而且还有一下优点:

  1. 参考人类编写 SQL 的步骤,对话文本到 SQL 任务被分解为多个子任务,允许主任务从中学习;
  2. 训练样本的构造格式与 T5 一致,可以最大限度地发挥预训练 T5 模型对目标任务的潜力;
  3. 统一的框架允许多个辅助任务的灵活调度。当应用于特定任务时,仅需在特定任务的标记数据中使用相同的训练目标对上面的预训练模型进行微调即可。

在预训练阶段,该研究整合了 Text-to-SQL 数据集 Spider 和对话 Text-to-SQL 数据集 SparC 和 CoSQL 的数据来训练 T5 模型。

微调阶段

在预训练阶段之后,该研究针对目标任务的标注数据,单纯使用 Text-to-SQL 任务来进一步微调模型。该研究在预测当前轮次的 SQL 时,会拼接之前轮次的预测 SQL,在此过程中,为了尽量克服多轮对话和生成中所带来的错误传递问题,该研究提出了 SQL 扰动的方案,对输入数据中的历史轮次 SQL,以 α 概率来进行扰动。SQL 语句的扰动主要以 β 的概率采样相应的 token,然后进行以下其一的扰动:

  • 用相同数据表中的列,来随机修改或者新增 SELECT 部分中的列;
  • 随机修改 JOIN 条件中的结构,比如交换两个表的位置;
  • 修改”*” 所有列为一些其他的列;
  • 交换”asc” 和”desc”。

上述的扰动是该研究在实验中统计发现最常见的一些错误传递导致的 SQL 生成错误情况,因此针对这些情况来进行扰动,降低模型关于这方面的依赖。

实验评估

评估数据集为多轮对话 Text-to-SQL:SparC 和 CoSQL。

评估指标为:

  • QM:Question Match,表示单轮问题中的生成的 SQL 与标注输出完全匹配的比例;
  • IM:Interaction Match,表示多轮对话中整个完整轮次所有生成的 SQL 与标注输出完全匹配的比例。

在表 1 的对比实验中,MIGA 在两个数据集上的 IM 分数,以及 CoSQL 的 QM 分数上,超过了目前最好的多轮对话 Text-to-SQL 模型。而且对比同类型的基于 T5 的方案,MIGA 分别在 IM 上提升了 7.0% 和 QM 上提升了 5.8%。

图片

表 1 对比实验分析,第一部分为树模型,第二部分为基于预训练生成模型。

在表 2 的消融实验中,该研究对 MIGA 的两阶段训练过程中的几个任务进行了探索,同时证明了这些任务分别都会对目标任务有不同程度的提升。

图片

表 2 针对 SparC 任务,分别去除各项任务或数据,在指标上都有所降低。

在实际的案例分析结果,MIGA 在生成的稳定性和正确性,对比基于 T5-3B 训练模型更好,可以看到 MIGA 在多表连接操作和列和表格的映射上要优于其他模型。在 Case#1 的 Question#2 中,T5-3B 模型不能为相对复杂的 JOIN 结构(两表连接)生成有效的 SQL,进而导致 Question#3 中更复杂的 JOIN 结构(三表连接)也预测错误。而 MIGA 准确地预测了 JOIN 结构,并较好地维持了之前的条件 t1.sex="f"。在 Case#2 中,T5- 3B 混淆了不同表中的多个列,并将 earnings 误认为是 people 表的列,而 MIGA 可以正确识别该列属于 poker_player 表,并将其链接至 t1。

图片

表 3 案例分析。

结语

网易互娱 AI Lab 针对 Text-to-SQL 提出了一个基于 T5 的两阶段的多任务预训练模型:MIGA。在预训练阶段,MIGA 将 Text-to-SQL 任务分解出了额外三个子任务,并将其统一为序列到序列的生成范式,从而更好地激发预训练 T5 模型。并且在微调阶段引入了 SQL 扰动机制,降低多轮 Text-to-SQL 生成场景下的错误传递带来的影响。

未来,研究团队会进一步探索更多有效的策略来撬动超大语言模型的能力,并且探索更优雅更有效的方式来进一步克服因为错误传递而导致的效果降低问题。

本篇关于《基于T5的两阶段的多任务Text-to-SQL预训练模型MIGA》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于科技周边的相关知识,请关注golang学习网公众号!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
帕累托排序学习:基于推荐系统公平性的排序学习帕累托排序学习:基于推荐系统公平性的排序学习
上一篇
帕累托排序学习:基于推荐系统公平性的排序学习
人工智能会彻底改变医疗保健的未来吗?
下一篇
人工智能会彻底改变医疗保健的未来吗?
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    511次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    498次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 千音漫语:智能声音创作助手,AI配音、音视频翻译一站搞定!
    千音漫语
    千音漫语,北京熠声科技倾力打造的智能声音创作助手,提供AI配音、音视频翻译、语音识别、声音克隆等强大功能,助力有声书制作、视频创作、教育培训等领域,官网:https://qianyin123.com
    69次使用
  • MiniWork:智能高效AI工具平台,一站式工作学习效率解决方案
    MiniWork
    MiniWork是一款智能高效的AI工具平台,专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具,提供精准智能解决方案,让复杂工作简单高效。
    64次使用
  • NoCode (nocode.cn):零代码构建应用、网站、管理系统,降低开发门槛
    NoCode
    NoCode (nocode.cn)是领先的无代码开发平台,通过拖放、AI对话等简单操作,助您快速创建各类应用、网站与管理系统。无需编程知识,轻松实现个人生活、商业经营、企业管理多场景需求,大幅降低开发门槛,高效低成本。
    71次使用
  • 达医智影:阿里巴巴达摩院医疗AI影像早筛平台,CT一扫多筛癌症急慢病
    达医智影
    达医智影,阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”,仅一次CT扫描即可高效识别多种癌症、急症及慢病,为疾病早期发现提供智能、精准的AI影像早筛解决方案。
    74次使用
  • 智慧芽Eureka:更懂技术创新的AI Agent平台,助力研发效率飞跃
    智慧芽Eureka
    智慧芽Eureka,专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景,通过专家级AI Agent精准执行任务,智能化工作流解放70%生产力,让您专注核心创新。
    69次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码