
LAS-PyTorch:基于PyTorch的端到端ASR模型的听、说、写实现
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
简介:LAS-PyTorch是一款采用PyTorch框架开发的端到端自动语音识别(ASR)模型,集成了听、说、写的全面功能,为开发者和研究者提供便捷高效的训练与测试环境。
LAS-Pytorch 是我基于谷歌ASR深度学习模型 LAS 的 PyTorch 实现。我在实现过程中使用了 mozilla 数据集,并借助 torchaudio 快速完成文件加载及功能转换。由于我的 GPU 内存不足,这是采用较小架构进行的4个训练周期的结果测量,包括信笺错误率(LER)和损失度量。侦听器具有128个神经元和两层结构,而 Speller 则有 256 个神经元及同样为两层的设计。可以看出模型正在从数据中学习,不过仍需进一步训练以及优化架构设计。
若尝试预测音频样本,则结果如下:
true_y:[A, N, D,, S, T, I, L, L,, N, O,, A, T, T,E,M,P,T,, B,Y,,T,H ,,P,O]
全部评论 (0)
还没有任何评论哟~


