
MASR:普通话的中文语音识别
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
MASR是一款专注于普通话的高效中文语音识别系统,能够准确快速地将口语转换为文本形式,适用于多种场景和应用需求。
MASR是一个基于端到端的深度神经网络的中文普通话语音识别项目。该项目采用门控卷积神经网络(Gated Convolutional Network),其结构参考了Facebook在2016年提出的Wav2letter模型,但激活函数使用的是GLU而非HardTanh或ReLU。根据实验结果,使用GLU的收敛速度比使用HardTanh更快。
如果您想研究卷积网络用于语音识别的效果,这个项目可以作为一个很好的参考资料。我们用字错误率(CER)来评估模型的表现,其计算公式为:编辑距离/句子长度,数值越低表示表现越好;大致上1-CER可理解为识别准确率。
该模型使用AISHELL-1数据集进行训练,包含共约150小时的录音,并覆盖了4000多个汉字。然而,在工业界中使用的语音识别系统通常会用至少十倍于此的数据量来训练模型,并且还会根据特定场景调整语料库以优化语言模型。因此,请不要期望本项目能够达到同样水平的表现。
全部评论 (0)
还没有任何评论哟~


