
基于神经网络的语音去混响:机器与深度学习模型
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本研究探讨了利用神经网络和深度学习技术进行语音去混响的方法,旨在提升音频清晰度及通信质量。
神经语音去混响的机器学习模型使用LibriSpeech数据集进行训练[1]。另外还可以利用Omni和MARDY的数据集来获取房间冲激响应(RIR)信息[2,3]。对于重传数据,则可以参考语音@FIT混响数据库提供的资源[4]。
后期处理中采用了具有“上下文窗口”的MLP和LSTM模型进行去混响操作[LSTM [5]]以及FD-NDLP方法(WPE + 频域)[6]来进一步改善音频质量。此外,还使用了基于图像分割的U-net架构来进行语音去混响[7]。
生成的数据可以通过特定平台下载,并且可以利用用U-net生成器进行GAN训练的方法得到改进效果。相关的神经网络权重也可以通过相应的途径获取到以供研究和开发之用。
全部评论 (0)
还没有任何评论哟~


