当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > AI识别方言困难!专家探索用算法度量方言差距,提议构建统一框架

AI识别方言困难!专家探索用算法度量方言差距,提议构建统一框架

来源:搜狐 2023-10-27 10:42:03 0浏览 收藏

你在学习科技周边相关的知识吗?本文《AI识别方言困难!专家探索用算法度量方言差距,提议构建统一框架》,主要介绍的内容就涉及到,如果你想提升自己的开发能力,就不要错过这篇文章,大家要知道编程理论基础和实战操作都是不可或缺的哦!

·确定一系列核心方言并为其建立自动语音识别(ASR)模型,当一种未知方言出现时,分析它距离这一系列核心方言中的哪些方言较近,就可以用合适的核心方言ASR模型识别出这种未知方言的内容。

·方言应用的窗口期大约是二三十年。AI识别方言的实际困难大,我国方言体系之间甚至每一类方言内部的地域差异都普遍存在,各地方言常以口语形式流传,缺乏对应文字,并且难以收集,可用于模型训练的方言语料数据偏少。

AI识别方言困难!专家探索用算法度量方言差距,提议构建统一框架

信也科技算法科学家倪博溢。

10月24日,第八届信也科技杯算法大赛总决赛上,9支人工智能队伍角逐,探索利用AI技术识别和还原语音数据中的方言信息,衡量不同方言之间的距离,推动智能语音识别技术发展。

方言距离是一个开放问题,例如人们通常在直觉上认为上海话与杭州话之间的距离比上海话和北京话之间的距离更近。从实用性来讲,距离越接近的两种方言,其自动语音识别引擎在交叉使用时也可以得到更好的效果。如此一来,利用少数核心方言的自动语音识别引擎来转写邻近的各种未知方言,就是方言ASR识别问题的潜在解决方案之一。

金融科技集团信也科技(NYSE:FINV)首席科学家王春平表示,本次大赛的目的是寻找数据驱动的最佳算法和模型,更好地理解方言和口音特征,提升用户体验;长期来讲,以核心方言来支持所有方言转写,找到最优的核心方言布局。

度量方言间的距离

我国幅员辽阔,人口众多,方言情况十分复杂,方言体系之间甚至每一类方言内部的地域差异都普遍存在。这导致在客户服务中,语音交流常常会遇到方言或口音挑战。

要将客服人员和客户沟通的过程中产生的大量语音数据进行完善的分析质检,就需要语音、NLP(自然语言处理)算法进行批量的处理、分析、质检。通常质检任务的第一步算法就是ASR转写。

但信也科技算法科学家倪博溢表示,ASR转写存在的一个实际问题是,通用ASR模型建立在普通话数据基础上,无法对方言进行准确转写。目前,商业解决方案还不能满足大部分方言的转写,大多数可用的汉语ASR模型要么不支持方言,要么只覆盖数量有限的方言。

理论上,最理想的解决方案是为每一种方言建立ASR引擎,只要有语音和对应的文字,就可以训练出每一种方言的模型,但这种方式成本高昂、耗时耗力。为一种方言单独建模,往往需要考虑该地区的方言是否较为统一、地区经济和科研实力是否允许。

倪博溢认为,工程上可行的方式是,首先确定一系列核心方言并为其建立ASR模型,当一种从未被AI识别过的方言出现时,分析它距离这一系列核心方言中的哪些方言较近,就可以用合适的核心方言ASR模型识别出这种未知方言。但是,“一种方言跟另一种核心方言究竟要多相似,才能用这种核心方言作为对照去识别其他方言,这是需要抉择的。”因此度量不同方言之间的距离是解决问题的关键。倪博溢表示,研究方言距离问题有助于进一步探索如何从语音层面建模方言、抽取方言特征、分析方言形成和演化机理,其结果也可以和传统方言分类方法做合理性的相互印证,并服务于更广泛的研究目标。

AI识别方言困难!专家探索用算法度量方言差距,提议构建统一框架

第八届信也科技杯算法大赛总决赛现场,选手在答辩。

那么方言之间距离的远近究竟要如何衡量?倪博溢表示,目前他们对方言的读音进行加权计算,得出两种方言在0-100之间的数值,代表距离远近,这是一个相对客观的指标。但判断不同方言的距离还有其他方式,此次信也科技杯算法大赛也是为了在思想碰撞中寻找衡量方言距离的优秀算法方案,拓展商用ASR接口的模型适用范围,推动核心方言引擎的布局,提高方言识别准确率。

方言底层逻辑+大模型

今年5月,Meta推出大规模多语言语音 (MMS) 模型,将文本转语音和语音转文本技术从大约100种语言扩展到1100多种,还可以识别4000多种口头语言。在国内,抖音上线了地方方言自动翻译功能,“一键”可将粤语、闽语、吴语、西南官话、中原官话等方言视频转化出普通话字幕。科大讯飞的方言识别语种扩充至23种,探索智能语音助力方言保护的路径。

语言是人类的特有属性,也是文化的载体。有的语言甚至只有少数几人掌握,一旦这些老人去世,这种语言也就消失了。语言一旦消失,文化无处可寻。

“方言是一个宝库,里边蕴含的东西太多了。如果只剩下普通话,就缺乏了语言的乐趣。但目前方言正在消失,方言应用的窗口期大约是二三十年,AI识别方言的实际困难很大,经济价值不大,所以很少有人愿意推动做这件事。”倪博溢表示,各地方言常以口语形式流传,缺乏对应文字,并且难以收集,可用于模型训练的方言语料数据偏少。今天已经拥有了互联网数据,如果能够取消数据获取的壁垒,将语音数据开放成公共资产,对研究者而言是一大利好。

尽管信也科技金融业务带来的客服语音积累了方言语料,但从大量语音中提取方言数据又是另一个挑战,从10000小时的语音数据中找出100小时的方言犹如大海捞针。倪博溢表示,识别方言的距离有助于解决这一难题,但这只是AI识别方言的解决方案之一,仍有其他解决方案可以探索。

在倪博溢看来,AI识别繁多的方言,不能依靠逐个击破,而是要研究方言的底层逻辑和特点,构建统一识别框架。同时大模型的预训练可以自我学习,探索借助大模型技术提高识别准确性。倪博溢提出一种设想,由于音标是固定的,能否利用国际音标序列标注各种方言,构建语言模型识别方言,他认为这或将解决绝大多数方言没有对应文字的问题。他也期待通过这次比赛建设长榜赛题(即持续性常态赛题,参赛者可长期打擂台),支持社区共建语音语料和模型算法,以较低成本服务于方言保护。

本篇关于《AI识别方言困难!专家探索用算法度量方言差距,提议构建统一框架》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于科技周边的相关知识,请关注golang学习网公众号!

版本声明
本文转载于:搜狐 如有侵犯,请联系study_golang@163.com删除
谷歌发布移动端Web AR美妆功能谷歌发布移动端Web AR美妆功能
上一篇
谷歌发布移动端Web AR美妆功能
四大领域为AI进化!统信UOS技术开放日到底发布了什么?
下一篇
四大领域为AI进化!统信UOS技术开放日到底发布了什么?
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    543次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    516次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    500次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    485次学习
查看更多
AI推荐
  • ljg-skills -
    ljg-skills
    ljg-skills 是李继刚开源的 AI 技能与提示词集合,面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板,适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。
    2347次使用
  • MELO音乐 - AI 音乐生成平台,支持多模态创作能力
    MELO音乐
    MELO音乐是一站式AI视频与音乐制作助手,对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐,MELO为你免费谱曲,轻松做同款!
    2158次使用
  • UniScribe - AI 免费在线音视频转文字平台
    UniScribe
    UniScribe 是一款 AI 音视频转文字与内容整理工具,支持上传音频、视频文件或粘贴 YouTube 链接,自动生成转写文本、摘要、思维导图和关键问题,并支持多格式导出,适合会议记录、课程学习、访谈整理和内容创作复盘。
    2115次使用
  • 剧云 - 免费 AI 智能中文剧本创作平台
    剧云
    剧云是专业中文剧本创作平台,安全稳定运行十余年,集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能,数据安全防护,轻松高效创作剧本。
    2317次使用
  • 万象有声 - AI 一站式有声内容创作平台
    万象有声
    万象有声,一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具,可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验,让有声书制作更简单!
    2286次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码