基于Librispeech的数据集的MASR中文语音识别模型

5星

浏览量: 0

大小:None

文件类型：None

简介：
该简介似乎存在一些混淆，题目提到的是基于Librispeech的数据集的MASR中文语音识别模型。LibriSpeech是一个主要用于英语语音识别的大规模数据集，而题目中提及的是用于中文的MASR（可能指的是Model-Aware Speech Recognition）。这看起来像是一个错误或不匹配的情况。如果意图是介绍一个基于类似LibriSpeech结构但针对中文的大型语料库开发的MASR模型，那么可以这样描述：简介： MASR是一个中文语音识别模型，基于Librispeech数据集。源码可以在GitHub上找到，地址是https://github.com/yeyupiaoling/MASR。不过根据要求要去掉链接，因此只提供相关信息：该模型的代码托管在GitHub平台上，用户名为yeyupiaoling。

全部评论 (0)

还没有任何评论哟~

客服

基于Librispeech的数据集的MASR中文语音识别模型

优质

该简介似乎存在一些混淆，题目提到的是基于Librispeech的数据集的MASR中文语音识别模型。LibriSpeech是一个主要用于英语语音识别的大规模数据集，而题目中提及的是用于中文的MASR（可能指的是Model-Aware Speech Recognition）。这看起来像是一个错误或不匹配的情况。如果意图是介绍一个基于类似LibriSpeech结构但针对中文的大型语料库开发的MASR模型，那么可以这样描述：简介： MASR是一个中文语音识别模型，基于Librispeech数据集。源码可以在GitHub上找到，地址是https://github.com/yeyupiaoling/MASR。不过根据要求要去掉链接，因此只提供相关信息：该模型的代码托管在GitHub平台上，用户名为yeyupiaoling。

MASR中文语音识别模型——基于AIShell数据集(179小时)

优质

简介：MASR为一款高效中文语音识别模型，训练基础为包含179小时丰富语料的AIShell数据集，适用于各类语音转文本的应用场景。 MASR是一个中文语音识别模型，并且在aishell数据集上进行了训练，该数据集包含179小时的录音。

基于LibriSpeech数据集的PPASR流式和非流式语音识别模型

优质

本研究基于LibriSpeech数据集开发了PPASR模型，实现了高效的流式与非流式语音识别技术，提升语音处理速度与准确率。 PPASR流式与非流式语音识别模型使用了LibriSpeech数据集。源码可以在GitHub上找到。

基于Pytorch的MASR中文语音识别模型文件（旧版）

优质

本资源提供了一个基于Pytorch框架构建的中文自动语音识别（MASR）模型的老版本文件。该模型专为理解和转录普通话设计，适用于研究和开发用途。基于Pytorch实现的MASR中文语音识别模型文件源码可以在GitHub上找到，地址是https://github.com/yeyupiaoling/MASR/tree/release/1.0。去掉链接后的版本为：基于Pytorch实现的MASR中文语音识别模型文件源码。

MASR：普通话的中文语音识别

优质

MASR是一款专注于普通话的高效中文语音识别系统，能够准确快速地将口语转换为文本形式，适用于多种场景和应用需求。 MASR是一个基于端到端的深度神经网络的中文普通话语音识别项目。该项目采用门控卷积神经网络（Gated Convolutional Network），其结构参考了Facebook在2016年提出的Wav2letter模型，但激活函数使用的是GLU而非HardTanh或ReLU。根据实验结果，使用GLU的收敛速度比使用HardTanh更快。如果您想研究卷积网络用于语音识别的效果，这个项目可以作为一个很好的参考资料。我们用字错误率（CER）来评估模型的表现，其计算公式为：编辑距离/句子长度，数值越低表示表现越好；大致上1-CER可理解为识别准确率。该模型使用AISHELL-1数据集进行训练，包含共约150小时的录音，并覆盖了4000多个汉字。然而，在工业界中使用的语音识别系统通常会用至少十倍于此的数据量来训练模型，并且还会根据特定场景调整语料库以优化语言模型。因此，请不要期望本项目能够达到同样水平的表现。

PPASR基于thchs30数据集的中文语音识别（入门级）模型

优质

本项目提供了一个基于THCHS-30数据集训练的初级中文语音识别模型PPASR，适用于初学者和小型项目。 PPASR中文语音识别（入门级）模型使用free_st_chinese_mandarin_corpus数据集进行训练的源码可以在GitHub上找到。

基于AISHELL数据集的PPASR中文语音识别入门级模型

优质

本项目提供了一个基于AISHELL数据集训练的轻量级中文语音识别模型PPASR，适合初学者快速上手和研究使用。 PPASR中文语音识别（入门级）模型使用AISHELL数据集进行训练。源码地址可以在GitHub上找到：https://github.com/yeyupiaoling/PPASR/tree/%E5%85%A5%E9%97%A8%E7%BA%A7

基于PaddlePaddle-DeepSpeech的中文语音识别模型（使用AISHELL数据集训练）

优质

本项目采用百度PaddlePaddle框架下的DeepSpeech模型，并利用AISHELL数据集进行训练，致力于构建高效的中文语音识别系统。 PaddlePaddle-DeepSpeech中文语音识别模型项目使用了AISHELL数据集进行训练，该项目地址位于GitHub上。

基于PaddlePaddle-DeepSpeech的中文语音识别模型（使用thchs_30数据集训练）

优质

本项目采用PaddlePaddle框架下的DeepSpeech模型，并利用thchs_30数据集进行训练，旨在提升中文语音识别精度与效率。 PaddlePaddle-DeepSpeech中文语音识别模型项目使用了thchs_30数据集进行训练，该项目地址可在GitHub上找到。

MASR：基于PyTorch的中文语音识别系统，采用纯CNN架构并包含三个常用公开中文语音数据集

优质

MASR是一款基于PyTorch开发的高效中文语音识别系统，采用先进的纯卷积神经网络(CNN)架构，并全面支持三个主流中文语音数据集。 MASR 是一个基于端到端的深度神经网络的中文普通话语音识别项目。该项目使用门控卷积神经网络（Gated Convolutional Network），其结构类似于Facebook在2016年提出的Wav2letter，仅采用卷积神经网络（CNN）实现语音识别功能。然而，MASR 使用的是 GLU 激活函数而不是 ReLU 或 HardTanh 函数。因此称作门控卷积网络。实验结果显示，使用GLU的模型收敛速度比HardTanh更快。我们用字错误率CER来衡量模型的表现，计算公式为：CER = 编辑距离 / 句子长度，值越低越好；可以大致理解为 1 - CER 就是识别准确率。为了安装环境，请执行requirements.txt文件以安装所需依赖项。在安装过程中遇到Pyaudio的错误时，建议先使用su命令进行操作。