本书为《操作系统概念》第七版的中文翻译版本,新增章节聚焦于探讨语音增强技术的发展历程,涵盖关键技术突破及应用趋势。
语音增强技术的研究始于1964年的贝尔实验室。Schroeder首次采用模拟方法实现了共振峰谱减法,并将其作为专利技术进行保护,尽管这项工作当时并未在刊物或会议上发表。到了1979年,Boll利用数字手段重新实现并改进了谱减算法以抑制噪声[6]。该算法通过分析无语音的静默段来估计背景噪音功率谱,然后从带噪语音频谱中扣除这个估算值,从而获得接近纯净语音的结果。此后,基于这一方法的各种优化和复杂技术相继出现。
例如,Berouti改进了传统谱减法,在其中加入了调节噪声功率谱系数以及设置增强语音功率谱的最小限制[7]等措施来提高性能。然而,尽管这些进步显著提升了算法的效果,但音乐噪音的问题仍然存在且尚未找到有效的解决方案。
同时期还出现了Lim和Oppenheim在1978年提出的维纳滤波器降噪方法[8]。这种方法利用了最小均方误差准则,在平稳条件下估计时域信号,并通过频域技术处理语音中的非平稳特性,从而使得残留噪声接近于白噪声而非音乐噪音。
到了1987年,Paliwal将卡尔曼滤波引入到语音增强领域中来解决维纳滤波器的局限性[9]。这种方法在时间序列上采用状态空间模型进行分析,在不稳定的条件下也能实现最小均方误差意义下的最优估计。
作为本段落研究重点之一的信号子空间分解降噪方法,最早由Denrinos提出,并于1995年被Ephraim和Van Trees进一步完善[10][11]。这种方法利用语音信号协方差矩阵的特征值分解(Eigen Value Decomposition, EVD)来将带噪语音向量空间划分为“信号子空间”与“噪声子空间”,二者相互正交。基于这一算法,后续的研究者们提出了一系列改进方法。
总的来说,尽管谱减法和维纳滤波器等早期技术引入了音乐噪音的问题尚未解决,但它们为后来的信号处理研究奠定了基础,并促进了现代语音增强技术和应用的发展。