本项目致力于研发先进的中文语音识别系统,采用深度学习算法提升模型在复杂环境下的语音识别准确率,助力人机交互体验升级。
该项目包含声学模型和语言模型两个部分,均基于神经网络构建。其中实现了GRU-CTC中文语音识别声音模型,并在文件gru_ctc_am.py中进行了代码编写工作。另外,在此项目中增加了基于科大讯飞DFCNN的CNN-CTC结构的中文语音识别模型(详见cnn_ctc_am.py),相对于GRU,对网络架构进行了一些调整优化。同时,完全使用DFCNN框架搭建声学模型,并将部分卷积层改为inception,输入采用时频图形式,在文件cnn_with_fbank.py中实现。此外还新增了一个基于pluse版数据集的模型(详见cnn_with_full.py),建议直接训练此模型。
在语言模型方面,language_model文件夹下新增了CBHG结构的语言模型(详见language_model\CBHG_lm.py)。该语言模型之前用于谷歌声音合成项目中,并在此移植为该项目中的基于神经网络的语言模型。