
kaggle_speech_recognition:基于TensorFlow的Conv-LSTM-CTC端到端语音识别模型
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
kaggle_speech_recognition 是一个利用TensorFlow实现的项目,专注于开发和训练用于语音识别任务的端到端Conv-LSTM-CTC模型。
Kaggle语音识别是针对一项Kaggle竞赛的项目,旨在为简单的语音命令构建一个语音检测器。该模型使用连接时间分类(CTC)成本的卷积残差以及反向LSTM网络,并由TensorFlow编写实现。
首先将音频波文件转换成滤波器组频谱图。CNN层从这些频谱图输入中提取分层特征,而LSTM层则像编码器/解码器一样工作,在序列上对CNN的特性进行编码并输出字符作为结果。这种LSTM编码器/解码器非常灵活,根据训练词汇的不同,它可以使用整个单词、音节或仅是音素的信息来表示发出的字符。
全连接层会压缩这些表达方式,并进一步将字符与单词分离。该项目旨在便于调试和可视化操作。它提供了界面以显示权重和激活情况,通过TensorBoard记录日志并展示在训练过程中学习到的角色及决策边界示例。
安装和使用:先决条件包括Python 3.5版本搭配TensorFlow 1.4;或选择Python 3.6与对应的TensorFlow版本。
全部评论 (0)
还没有任何评论哟~


