
基于MATLAB的均值信号特征提取及PIT-LSTM语音分离代码:TensorFlow实现
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本项目采用MATLAB进行均值信号特征提取,并使用TensorFlow框架实现PIT-LSTM算法,旨在提高复杂环境下的语音分离精度。
提取均值信号特征的MATLAB代码在两个扬声器基于LSTM/BLSTM模型的PIT(Permutation Invariant Training)方法上,在多说话者混合语音分离与识别方面取得了进展,这一问题通常被称为“鸡尾酒会难题”。尽管人类听者能够轻松地从混音中辨别不同的声音来源,但对于计算机来说这项任务显得非常困难,尤其是在仅有一个麦克风记录下混合音频的情况下。
性能测试表明:训练集和验证集中包含了通过随机选择来自WSJ0数据集的说话人及话语生成而成的两人的语音混合,并以-2.5dB到2.5dB之间均匀分布的各种信噪比(SNR)进行混音。对于LSTM模型,不同性别的音频文件测试结果如下:而对于BLSTM模型,不同的性别间音频分离效果的结果为:
从上述实验中可以看出,在混合性别语音的场景下,相较于同性间的混合声音,其分离性能更为优秀;同时BLSTM架构在所有测试条件下均优于标准LSTM。
评估指标包括:
- SDR(信号失真比)
- SAR(信号与伪像比率)
- SIR(信号干扰比)
- STOI(短期客观可懂度测量)
- ESTOI(扩展的短期目标可懂度测量)
- PESQ(语音质量感知评估)
依赖库包括:
MATLAB (测试版本:R2016b 64位)
Tensorflow (测试版:1.4.0)
全部评论 (0)
还没有任何评论哟~


