当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > Siri越来越“大众”,未来智能语音会有哪些突破?

Siri越来越“大众”,未来智能语音会有哪些突破?

来源:51CTO.COM 2023-04-15 12:41:04 0浏览 收藏

在IT行业这个发展更新速度很快的行业,只有不停止的学习,才不会被行业所淘汰。如果你是科技周边学习者,那么本文《Siri越来越“大众”,未来智能语音会有哪些突破?》就很适合你!本篇内容主要包括##content_title##,希望对大家的知识积累有所帮助,助力实战开发!

对于人机交互来说,如何让机器具备良好的听觉,一直是近些年来 AI 领域不懈追求的目标。2009 年前后,深度学习模型用于开始走出学术界,而以语音唤醒、识别、增强和合成为代表的智能语音技术,也逐渐走向成熟。

一个早期典型的例子是,2011 年 siri 的诞生。智能语音成了人与机器之间的沟通交互方式的新跃迁。而后经过十余年的发展,"嘿,siri"式的人机问答已经不再局限于移动终端设备,走进千家万户,广泛应用于各个场景:家居陪伴智能音箱,方便网购的天猫精灵,会议上的同声翻译,出行时的车载语音导航助手等等。

随着越来越多的互联网企业及上游厂商在智能语音赛道的积极布局,智能语音客服、对话式 AI 应用、AI 虚拟助手等产品的取得了进一步质量提升,响应语音更自然,理解问题更准确,并且有了自己的"小情绪"。

身处数字化浪潮的时代,万物互联的趋势不可阻挡。而智能语音作为当下人机交互的关键接口,正处于与实体经济深度融合碰撞的时期。随着应用场景的进一步下沉和拓展,我们也看到不少挑战性的问题,比如:如何识别说话人身份、如何识别方言、如何消除歧义等等都是最新的研究热点。

一项技术走向成熟的背后,往往蕴含着一些潜质,这其中包括它在实际应用中的创新能力,以及它更有潜力的演进方向。展望下一个阶段,智能语音技术也必会出现新的演进趋势,例如:深度集成的AI语音芯片能否取代云端运行模型的模式?多模态融合、无监督学习、脑学科交叉融合的创新研究能否取得突破性成果?我们拭目以待。

那么,智能语音技术在各大企业中实践探索中都遇到了哪些真实的生产问题?又是如何解决的?取得了哪些进展?行业出现了哪些新变化?下一步的发展趋势又会有哪些?"AISummit全球人工智能技术大会"智能语音技术专场带给你深度思考!

8月7日,51CTO倾力打造的“AISummit全球人工智能技术大会”智能语音专场重磅来袭!

专场有哪些你感兴趣的专题内容?

专题一:作业帮语音技术实践

1.语音识别技术探索:分享端到端、高效利用数据等大规模实际应用场景下的语音识别技术,并提出了基于前缀自动机的热词技术方案。

2.语音评测技术实践:语音发音纠错技术方面结合作业帮的高并发场景,提出了多任务知识迁移、多模态特征融融合方案,很大程度上提升提升模型的因素区分能力和噪声环境下的检错能力。并针对语音评测落地难的痛点,提出了高性能的云端一体化测评技术。

3.语音合成技术框架:分享作业帮基于现有的小数据量语音技术框架进一步改进的思考与实践。

专题二:字节语音识别技术在飞书中的应用

1.语音识别技术在办公场景中的应用进程:办公邮件、即时通讯中的语音输入办公语音助手、实时字幕&会后转写。

2.解决思考:会议智能化、效率提升。

3.挑战与机遇:语音识别任务的挑战、下游任务带来的挑战、会议提供额外的信息。

4.重点算法工作介绍(端到端语音识别系统):Transducer & CIF、动态+静态热词、Context-aware。

专题三:构建高水平的语音合成系统实践

1.高水平语音合成系统背景介绍及问题分析。

2.高水平语音合成系统设计思考与实现。

3.实验评估。

4.未来工作展望。

专题四:SOUL社交场景下的智能语音技术实践之路

1.SOUL社交元宇宙场景下的端到端语音识别

2.多模态语音合成技术的构建路线

3.在语音安全和语音交互等业务场景下的应用

专题五:端到端语音识别技术在58同城的探索实践

1.语音识别在58同城的应用场景:AI智能语音应用、语音识别链路介绍、挑战与技术路线

2.基于WeNet的模型优化工作:半监督训练、Efficient Conformer、模型压缩

3.端到端语音识别的部署方案:自研引擎架构、Wenet解码服务部署、流式/非流式解码性能测试

都有哪些重量级嘉宾?

一、宋旸,作业帮首席算法专家、智能中台负责人、专场出品人

宋旸在百度工作7年,从事算法研发工作。2015年加入作业帮,为智能中台部负责人,为公司各业务输出包括数据挖掘、NLP、语音在内的中台技术能力,先后负责搜索答疑、个性化推荐、智能质检、语音评测、服务智能化调度等方向。

二、王强强,作业帮语音技术团队负责人

在加入作业帮之前,王强强曾任职于清华大学电子工程系语音处理与机器智能实验室,负责语音识别算法落地,搭建工业级解决方案。2018 年加入作业帮,负责语音相关算法研究和落地,主导了语音识别、评测、合成等算法在作业帮的落地实践, 为公司提供整套语音技术解决方案。

三、张骏,字节跳动AI Lab语音识别算法研究员

张骏长期从事语音识别、语音唤醒等语音算法研究与应用,经验丰富。2018 年加入字节跳动AI Lab智能语音团队,目前主要负责智能办公、智能硬件、智能客服等方向的语音技术方案建设。

四、谭旭,微软亚洲研究院主管研究员

谭旭,研究领域包括深度学习、自然语言/语音/音乐、AI内容生成等。研发的机器翻译和语音合成系统获得多项比赛冠军并在学术评测集上达到人类水平,研究工作如预训练语言模型MASS、语音合成模型FastSpeech/NaturalSpeech、AI音乐项目Muzic受到业界广泛关注。

五、刘忠亮,SOUL语音算法负责人

刘忠亮硕士毕业于中科院研究生院,目前在SOUL担任语音算法负责人,曾任职于搜狗AI交互部和陌陌大数据部。近10年主要从事语音唤醒、语音识别、语音合成、音频音乐理解等语音技术体系的研发工作,主要应用于输入法、手机助手、智能硬件、语音安全等语音交互和语音理解业务场景,致力于打造最好的可落地的语音技术。

六、周维,58同城 AI Lab语音算法部负责人、算法架构师

周维,58同城AI Lab语音算法部负责人、算法架构师,负责语音识别、语音合成算法研发。2016年硕士毕业于中国科学院大学,毕业后参与对话式AI产品方向创业,2018年5月加入58同城,曾先后参与智能客服、智能外呼、智能写稿等AI项目的NLP算法研发,2019年开始主攻语音算法方向,带领团队从0到1自主研发58同城语音处理引擎中的语音算法。

还有哪些精彩活动?

除了精彩的AI技术大咖的精彩的实践创新干货分享外,AISummit全球人工智能技术大会还为与会的朋友们准备了丰富的场前、场中互动福利。加入这场盛会,在拓展技术能力和人脉资源的同时,顺便惊喜礼品带回家!

活动包括"当人不让"、"工享幸运"、"智同道合"等四大妙趣横生的互动游戏,总有一款精美礼品惊艳到你!那么,传说中神秘的终极大奖会是什么呢?等待热爱技术的你来现场揭秘!(PS:听说越早预约报名,中大奖几率越高哦!)

Siri越来越“大众”,未来智能语音会有哪些突破? 

怎么快速预约报名?

点击进入​​AISummit 全球人工智能技术大会​​ 官方网站,按提示完整填写、提交信息即可完成报名。

扫码加入大会官方群,参与抽奖,赢取SONY音响、冰墩墩、AI技术书籍等精美礼品,还有红包雨掉落。

Siri越来越“大众”,未来智能语音会有哪些突破?

Siri越来越“大众”,未来智能语音会有哪些突破?

终于介绍完啦!小伙伴们,这篇关于《Siri越来越“大众”,未来智能语音会有哪些突破?》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布科技周边相关知识,快来关注吧!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
Habitat Challenge 2022冠军技术:字节AI Lab提出融合传统和模仿学习的主动导航Habitat Challenge 2022冠军技术:字节AI Lab提出融合传统和模仿学习的主动导航
上一篇
Habitat Challenge 2022冠军技术:字节AI Lab提出融合传统和模仿学习的主动导航
Windows 11 桌面贴纸泄漏,这就是你很快就会得到的
下一篇
Windows 11 桌面贴纸泄漏,这就是你很快就会得到的
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • SEO标题魔匠AI:高质量学术写作平台,毕业论文生成与优化专家
    魔匠AI
    SEO摘要魔匠AI专注于高质量AI学术写作,已稳定运行6年。提供无限改稿、选题优化、大纲生成、多语言支持、真实参考文献、数据图表生成、查重降重等全流程服务,确保论文质量与隐私安全。适用于专科、本科、硕士学生及研究者,满足多语言学术需求。
    10次使用
  • PPTFake答辩PPT生成器:一键生成高效专业的答辩PPT
    PPTFake答辩PPT生成器
    PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
    26次使用
  • SEO标题Lovart AI:全球首个设计领域AI智能体,实现全链路设计自动化
    Lovart
    SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
    25次使用
  • 美图AI抠图:行业领先的智能图像处理技术,3秒出图,精准无误
    美图AI抠图
    美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
    35次使用
  • SEO标题PetGPT:智能桌面宠物程序,结合AI对话的个性化陪伴工具
    PetGPT
    SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
    36次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码