当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 智能语音合成技术的基本机理

智能语音合成技术的基本机理

来源：网易伏羲 2024-01-27 22:56:38 0浏览收藏

学习知识要善于思考，思考，再思考！今天golang学习网小编就给大家带来《智能语音合成技术的基本机理》，以下内容主要包含等知识点，如果你正在学习或准备学习科技周边，就都不要错过本文啦~让我们一起来看看吧，能帮助到你就更好了！

统计参数语音合成方法因其灵活性而在语音合成领域引起广泛关注。近年来，深度神经网络模型在机器学习研究领域的应用取得显着优势，与传统方法相比。基于神经网络的建模方法在统计参数语音合成中的应用逐渐深入，已成为语音合成的主流方法之一。

统计参数语音合成的后端声学建模是本文的主题。

参数化语音合成的后端框架

如图，描述了统计参数语音合成的后端框架，主要包括训练和合成两个阶段。

在训练阶段，使用声音库中的语音波形和相应的文本特征作为输入。通过声码器提取语音波形，并结合文本特征进行声学建模。

在合成阶段，根据已训练好的声学模型，输入待合成的文本特征，预测相应的声学特征。然后，利用声码器将预测得到的声学特征转换为语音波形。声码器和声学模型是统计参数语音合成系统中的关键组成部分。

语音产生的源滤波器模型在语音波形参数化过程中被用来将语音的短时频谱分离为基频和频谱包络。通常，我们通过分析时域波形或频域谐波来获得语音的激励特性，然后从语音波形的短时傅里叶变换得到的幅度谱中去除时间和频率的周期性，从而得到语音的频谱包络。这种方法可以帮助我们更好地理解和处理语音信号。

由于频谱包络的维数较高，建模变得困难，因此通常需要降低频谱包络的维数。重建语音波形是从语音声学参数恢复原始语音的相反过程。通过给定语音的基频、谱包络和激励特性，结合适当的相位约束，可以重构STFT幅度谱。

时长建模是统计参数语音合成中的另一个模块。时间长度建模不需要声码器。其基本框架类似于声学建模。统计模型用于在给定文本特征的条件下，对相应时间长度的概率分布进行建模。

经过20多年的发展，基于HMM的统计参数语音合成方法已经成为一种成熟的语音合成方法。

本节将介绍隐马尔可夫模型及其理论基础。结合一定的相位约束，重构 STFT 幅度谱。时长建模是统计参数语音合成中的另一个模块。时间长度建模不需要声码器。其基本框架类似于声学建模。统计模型用于在给定文本特征的条件下，对相应时间长度的概率分布进行建模。经过20多年的发展，基于HMM的统计参数语音合成方法已经成为一种成熟的语音合成方法。

隐马尔可夫模型是一种对序列建模的概率模型，它由一组隐含的状态变量组成和一组观察变量。HMM 模型有两个假设。

状态变量服从一阶马尔可夫链；即当前状态只与前一次的状态有关，如公式（1）所示。

观察变量在某一时刻的概率分布只与当前时刻的状态有关，与其他时刻的状态或观察变量无关，如式（2）所示。

通常，在HMM模型中

巧妙形成HMM的状态转移矩阵A，观测变量的概率密度为：

值得注意的是，HMM 的输出概率：

基于HMM的统计参数语音合成方法中声学建模的核心原理是利用HMM模型对给定情况下语音的声学特征序列进行概率建模。

整个系统的配置包括语音声学特征的选择、建模单元的选择以及HMM模型的配置。语音合成系统中的声学特征包括激励特征和频谱特征。

在谱特征的选择上，为了降低HMM建模的难度，一般采用去除维度间相关性的低维谱表示，如梅尔倒谱和线谱对特征。考虑到语音信号的短时平稳特性和HM的建模能力，语音合成系统中的HMM通常对音素级别的单元进行建模，例如中文中的元音单元。由于语音的时序特性，音频建模中HMM的拓扑结构往往是从左到右的单向遍历状态。