当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 薛定谔桥驱动下的新语音合成系统,打败扩散模型,由清华朱军团队开发而来

薛定谔桥驱动下的新语音合成系统,打败扩散模型,由清华朱军团队开发而来

来源:机器之心 2023-12-25 19:25:07 0浏览 收藏

有志者,事竟成!如果你在学习科技周边,那么本文《薛定谔桥驱动下的新语音合成系统,打败扩散模型,由清华朱军团队开发而来》,就很适合你!文章讲解的知识点主要包括,若是你对本文感兴趣,或者是想搞懂其中某个知识点,就请你继续往下看吧~

近日,由清华大学计算机系朱军教授课题组发布的基于薛定谔桥的语音合成系统 [1],凭借其 「数据到数据」的生成范式,在样本质量和采样速度两方面,均击败了扩散模型的 「噪声到数据」范式。

击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了

论文链接:https://arxiv.org/abs/2312.03491
项目网站:https://bridge-tts.github.io/ 
代码实现:https://github.com/thu-ml/Bridge-TTS

问题背景

自 2021 年起,扩散模型(diffusion models)开始成为文本到语音合成(text-to-speech, TTS)领域的核心生成方法之一,如华为诺亚方舟实验室提出的 Grad-TTS [2]、浙江大学提出的 DiffSinger [3] 等方法均实现了较高的生成质量。此后,又有众多研究工作有效提升了扩散模型的采样速度,如通过先验优化 [2,3,4]、模型蒸馏 [5,6]、残差预测 [7] 等方法。然而,如此项研究所示,由于扩散模型受限于「噪声到数据」的生成范式,其先验分布对生成目标提供的信息始终较为有限,对条件信息无法利用充分。

击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了

本次语音合成领域的最新研究工作,Bridge-TTS,凭借其基于薛定谔桥的生成框架,实现了「数据到数据」的生成过程,首次将语音合成的先验信息由噪声修改为干净数据由分布修改为确定性表征

该方法的主要架构如上图所示,输入文本首先经由文本编码器提取出生成目标(mel-spectrogram, 梅尔谱)的隐空间表征。此后,与扩散模型将此信息并入噪声分布或用作条件信息不同,Bridge-TTS 的方法‍支持直接将其作为先验信息,并支持通过随机或确定性采样的方式,高质量、快速地生成目标。

工作成果

在验证语音合成质量的标准数据集 LJ-Speech 上,研究团队将 Bridge-TTS 与 9 项高质量的语音合成系统和扩散模型的加速采样方法进行了对比。如下所示,该方法在样本质量上(1000 步、50 步采样)击败了基于扩散模型的高质量 TTS 系统 [2,3,7],并在采样速度上,在无需任何后处理如额外模型蒸馏的条件下,超过了众多加速方法,如残差预测、渐进式蒸馏、以及最新的一致性蒸馏等工作 [5,6,7]。
击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了
以下是 Bridge-TTS 与基于扩散模型方法的生成效果示例,更多生成样本对比可访问项目网站:https://bridge-tts.github.io/

  • 1000 步合成效果对比

输入文本:「Printing, then, for our purpose, may be considered as the art of making books by means of movable types.」击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了
  • 4 步合成效果对比

输入文本:「The first books were printed in black letter, i.e. the letter which was a Gothic development of the ancient Roman character,」击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了
  •  2 步合成效果对比

输入文本:「The prison population fluctuated a great deal,」击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了下面展示了 Bridge-TTS 一个在 2 步和 4 步的一个确定性合成(ODE sampling)案例。在 4 步合成中,该方法相较于扩散模型显著合成了更多样本细节,并没有噪声残留的问题。在 2 步合成中,该方法展示出了完全纯净的采样轨迹,并在每一步采样完善了更多的生成细节。
击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了
在频域中,更多的生成样本如下所示,在 1000 步合成中,该方法相较于扩散模型生成了更高质量的梅尔谱,当采样步数降到 50 步时,扩散模型已经牺牲了部分采样细节,而基于薛定谔桥的该方法仍然保持着高质量的生成效果。在 4 步和 2 步合成中,该方法不需蒸馏、多阶段训练、和对抗损失函数,仍然实现了高质量的生成效果。

击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了

在 1000 步合成中,Bridge-TTS与基于扩散模型的方法的梅尔谱对比

击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了

在 50 步合成中,Bridge-TTS与基于扩散模型的方法的梅尔谱对比

击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了

在 4 步合成中,Bridge-TTS与基于扩散模型的方法的梅尔谱对比
击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了
在 2 步合成中,Bridge-TTS与基于扩散模型的方法的梅尔谱对比

Bridge-TTS一经发布,凭借其在语音合成上新颖的设计与高质量的合成效果,在 Twitter 上引起了热烈关注,获得了百余次转发和数百次点赞,入选了 Huggingface 在 12.7 的 Daily Paper 并在当日获得了支持率第一名,同时在 LinkedIn、微博、知乎、小红书等多个国内外平台被关注与转发报道。

击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了

多个外文网站也进行了报道和讨论:

击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了

方法介绍

薛定谔桥(Schrodinger Bridge)是一类继扩散模型之后,近期新兴的深度生成模型,在图像生成、图像翻译等领域都有了初步应用 [8,9]。不同于扩散模型在数据和高斯噪声之间建立变换过程,薛定谔桥支持任意两个边界分布之间的转换。在 Bridge-TTS 的研究中,作者们提出了基于成对数据间薛定谔桥的语音合成框架,灵活支持着多种前向过程、预测目标、及采样过程。其方法概览如下图所示:

击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了

  • 前向过程:此研究在强信息先验和生成目标之间搭建了一种完全可解的薛定谔桥,支持灵活的前向过程选择,如对称式噪声策略击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了、常数击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了,和非对称噪声策略: 图片、线性图片,以及直接与扩散模型相对应的方差保持(VP)噪声策略。该方法发现在语音合成任务中非对称噪声策略:即线性图片(gmax)和 VP 过程,相较于对称式噪声策略有更好的生成效果。

击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了

击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了

  • 模型训练:该方法保持了扩散模型训练过程的多个优点,如单阶段、单模型、和单损失函数等。并且其对比了多种模型参数化(Model parameterization)的方式,即网络训练目标的选择,包括噪声预测(Noise)、生成目标预测(Data)、和对应于扩散模型中流匹配技术 [10,11] 的速度预测(Velocity)等。文章发现以生成目标,即梅尔谱为网络预测目标时,可以取得相对更佳的生成效果。

击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了

  • 采样过程:得益于该研究中薛定谔桥完全可解的形式,对薛定谔桥对应的前 - 后向 SDE 系统进行变换,作者们得到了 Bridge SDE 和 Bridge ODE 用于推断。同时,由于直接模拟 Bridge SDE/ODE 推断速度较慢,为加快采样,该研究借助了扩散模型中常用的指数积分器 [12,13],给出了薛定谔桥的一阶 SDE 与 ODE 采样形式:

击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了

在 1 步采样时,其一阶 SDE 与 ODE 的采样形式共同退化为网络的单步预测。同时,它们与后验采样 / 扩散模型 DDIM 采样有着密切联系,文章在附录中给出了详细分析。文章也同时给出了薛定谔桥的二阶采样 SDE 与 ODE 采样算法。作者发现,在语音合成中,其生成质量与一阶采样过程类似。

在其他任务如语音增强、语音分离、语音编辑等先验信息同样较强的任务中,作者们期待此研究也会带来较大的应用价值。

作者简介

此项研究有三位共同第一作者:陈泽华,何冠德,郑凯文,均属于清华大学计算机系朱军课题组,文章通讯作者为朱军教授,微软亚洲研究院首席研究经理谭旭为项目合作者。

击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了

                                                             朱军教授

击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了

                                                              微软亚洲研究院首席研究经理谭旭

击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了

陈泽华是清华大学计算机系水木学者博士后,主要研究方向为概率生成模型,及其在语音、音效、生物电信号合成等方面的应用。曾在微软、京东、TikTok 等多家公司实习,在语音和机器学习领域重要国际会议 ICML/NeurIPS/ICASSP 等发表多篇论文。

击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了

何冠德是清华大学在读的三年级硕士生,主要研究方向是不确定性估计与生成模型,此前在 ICLR 等会议以第一作者身份发表论文。

击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了

郑凯文是清华大学在读的二年级硕士生,主要研究方向是深度生成模型的理论与算法,及其在图像、音频和 3D 生成中的应用。此前在 ICML/NeurIPS/CVPR 等顶级会议发表多篇论文,涉及了扩散模型中的流匹配和指数积分器等技术。

参考文献:
[1] Zehua Chen, Guande He, Kaiwen Zheng, Xu Tan, and Jun Zhu. Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis. arXiv preprint arXiv:2312.03491, 2023.
[2] Vadim Popov, Ivan Vovk, Vladimir Gogoryan, Tasnima Sadekova, and Mikhail A. Kudinov. Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech. In ICML, 2021.
[3] Jinglin Liu, Chengxi Li, Yi Ren, Feiyang Chen, and Zhou Zhao. DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism. In AAAI, 2022.
[4] Sang-gil Lee, Heeseung Kim, Chaehun Shin, Xu Tan, Chang Liu, Qi Meng, Tao Qin, Wei Chen, Sungroh Yoon, and Tie-Yan Liu. PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior. In ICLR, 2022.
[5] Rongjie Huang, Zhou Zhao, Huadai Liu, Jinglin Liu, Chenye Cui, and Yi Ren. ProDiff: Progressive Fast Diffusion Model For High-Quality Text-to-Speech. In ACM Multimedia, 2022.
[6] Zhen Ye, Wei Xue, Xu Tan, Jie Chen, Qifeng Liu, and Yike Guo. CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model. In ACM Multimedia, 2023.
[7] Zehua Chen, Yihan Wu, Yichong Leng, Jiawei Chen, Haohe Liu, Xu Tan, Yang Cui, Ke Wang, Lei He, Sheng Zhao, Jiang Bian, and Danilo P. Mandic. ResGrad: Residual Denoising Diffusion Probabilistic Models for Text to Speech. arXiv preprint arXiv:2212.14518, 2022.
[8] Yuyang Shi, Valentin De Bortoli, Andrew Campbell, and Arnaud Doucet. Diffusion Schrödinger Bridge Matching. In NeurIPS 2023.
[9] Guan-Horng Liu, Arash Vahdat, De-An Huang, Evangelos A. Theodorou, Weili Nie, and Anima Anandkumar. I2SB: Image-to-Image Schrödinger Bridge. In ICML, 2023.
[10] Yaron Lipman, Ricky T. Q. Chen, Heli Ben-Hamu, Maximilian Nickel, and Matt Le. Flow Matching for Generative Modeling. In ICLR, 2023.
[11] Kaiwen Zheng, Cheng Lu, Jianfei Chen, and Jun Zhu. Improved Techniques for Maximum Likelihood Estimation for Diffusion ODEs. In ICML, 2023.
[12] Cheng Lu, Yuhao Zhou, Fan Bao, Jianfei Chen, Chongxuan Li, and Jun Zhu. DPM-Solver: A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps. In NeurIPS, 2022.
[13] Kaiwen Zheng, Cheng Lu, Jianfei Chen, and Jun Zhu. DPM-Solver-v3: Improved Diffusion ODE Solver with Empirical Model Statistics. In NeurIPS, 2023.

以上就是《薛定谔桥驱动下的新语音合成系统,打败扩散模型,由清华朱军团队开发而来》的详细内容,更多关于产业的资料请关注golang学习网公众号!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
小米14 Ultra:完美融合直角边框与尖端技术的预览小米14 Ultra:完美融合直角边框与尖端技术的预览
上一篇
小米14 Ultra:完美融合直角边框与尖端技术的预览
微软发布Office版本2309的最新更新:增强Web版Word的安全性和功能升级
下一篇
微软发布Office版本2309的最新更新:增强Web版Word的安全性和功能升级
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • PPTFake答辩PPT生成器:一键生成高效专业的答辩PPT
    PPTFake答辩PPT生成器
    PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
    13次使用
  • SEO标题Lovart AI:全球首个设计领域AI智能体,实现全链路设计自动化
    Lovart
    SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
    14次使用
  • 美图AI抠图:行业领先的智能图像处理技术,3秒出图,精准无误
    美图AI抠图
    美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
    27次使用
  • SEO标题PetGPT:智能桌面宠物程序,结合AI对话的个性化陪伴工具
    PetGPT
    SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
    26次使用
  • 可图AI图片生成:快手可灵AI2.0引领图像创作新时代
    可图AI图片生成
    探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
    53次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码