本报告详细记录了一次针对语音合成技术的研究与实践过程,涵盖实验设计、实现方法及效果评估等环节。旨在探讨提升合成语音自然度和个性化的方法。
从物理原理来看,语音信号是由肺部挤压空气激励发声器官振动产生的。说话时声带相互靠近但不完全闭合,使声门形成一条窄缝。当气流通过这条缝隙时,其间压力减小导致声带完全闭合阻止了气流的通行;在气流被阻断后,压力恢复正常,使得声带间重新打开让气流再次通过。这一过程反复进行形成了周期性的脉冲气流进入声道。这个脉冲串的周期被称为“基音周期”,其倒数为“基频”。男性说话时的基频通常位于60至200赫兹范围内,而女性和小孩则在200至450赫兹之间。这种方式产生的声音称为浊音。
通过研究声管结构发现,可以用若干截面积不同的均匀管道连接来描述它,一般称作级联无损声管模型。根据流体力学方法可以证明每一截面均一的管道可用单极点模型近似表示,因此N段这样的管道组成的系统可由一个N阶全极点滤波器表达如下:
\[ V(z) = \frac{G}{\prod_{k=1}^{N}(1-p_k z^{-1})} = \frac{G}{1-\sum_{k=1}^N a_k z^{-k}} \]
对于典型的男声,通常取\( N = 10 \),所有极点 \( p_i \) 需要成对共轭以确保系数 \( a_i \) 均为实数。综合考虑清音信号之后可以建立一个离散语音模型来描述整个语音生成过程。