基于PyTorch的MASR中文语音识别系统，目前采用纯CNN网络架构，并集成了三个常用的公共中文语音数据集。

5星

浏览量: 0

大小:None

文件类型：None

简介：
MASR中文语音识别系统，MASR 是一种以端到端深度神经网络为基础的中文普通话语音识别项目，其开发历程源于对现有技术的进一步探索。目前，该项目已进入维护休眠状态，建议用户采用性能更为优越的企业级模型以获得更佳的识别效果。关于模型原理，MASR 采用了门控卷积神经网络（Gated Convolutional Network）技术。其网络结构设计灵感来源于 Facebook 在 2016 年提出的 Wav2letter 模型，但 MASR 仅利用卷积神经网络 (CNN) 来实现语音识别功能。值得注意的是，MASR 区别于传统方法，它采用了 GLU（门控线性单元）作为激活函数，而非 ReLU 或 HardTanh 函数。正是这种差异使得 MASR 的收敛速度明显提升。为了评估模型的表现，我们采用字错误率 (Character Error Rate, CER) 作为衡量指标，CER 的计算公式为：CER = 编辑距离 / 句子长度。一个更低 CER 值意味着更高的识别准确率。在安装环境中，执行 `requirements.txt` 文件以安装必要的依赖项时，如果遇到 Pyaudio 安装错误，可以首先尝试执行 `su` 命令进行权限提升。

全部评论 (0)

还没有任何评论哟~

客服

MASR：基于PyTorch的中文语音识别系统，采用纯CNN架构并包含三个常用公开中文语音数据集

优质

MASR是一款基于PyTorch开发的高效中文语音识别系统，采用先进的纯卷积神经网络(CNN)架构，并全面支持三个主流中文语音数据集。 MASR 是一个基于端到端的深度神经网络的中文普通话语音识别项目。该项目使用门控卷积神经网络（Gated Convolutional Network），其结构类似于Facebook在2016年提出的Wav2letter，仅采用卷积神经网络（CNN）实现语音识别功能。然而，MASR 使用的是 GLU 激活函数而不是 ReLU 或 HardTanh 函数。因此称作门控卷积网络。实验结果显示，使用GLU的模型收敛速度比HardTanh更快。我们用字错误率CER来衡量模型的表现，计算公式为：CER = 编辑距离 / 句子长度，值越低越好；可以大致理解为 1 - CER 就是识别准确率。为了安装环境，请执行requirements.txt文件以安装所需依赖项。在安装过程中遇到Pyaudio的错误时，建议先使用su命令进行操作。

基于Librispeech的数据集的MASR中文语音识别模型

优质

该简介似乎存在一些混淆，题目提到的是基于Librispeech的数据集的MASR中文语音识别模型。LibriSpeech是一个主要用于英语语音识别的大规模数据集，而题目中提及的是用于中文的MASR（可能指的是Model-Aware Speech Recognition）。这看起来像是一个错误或不匹配的情况。如果意图是介绍一个基于类似LibriSpeech结构但针对中文的大型语料库开发的MASR模型，那么可以这样描述：简介： MASR是一个中文语音识别模型，基于Librispeech数据集。源码可以在GitHub上找到，地址是https://github.com/yeyupiaoling/MASR。不过根据要求要去掉链接，因此只提供相关信息：该模型的代码托管在GitHub平台上，用户名为yeyupiaoling。

MASR中文语音识别模型——基于AIShell数据集(179小时)

优质

简介：MASR为一款高效中文语音识别模型，训练基础为包含179小时丰富语料的AIShell数据集，适用于各类语音转文本的应用场景。 MASR是一个中文语音识别模型，并且在aishell数据集上进行了训练，该数据集包含179小时的录音。

基于Pytorch的MASR中文语音识别模型文件（旧版）

优质

本资源提供了一个基于Pytorch框架构建的中文自动语音识别（MASR）模型的老版本文件。该模型专为理解和转录普通话设计，适用于研究和开发用途。基于Pytorch实现的MASR中文语音识别模型文件源码可以在GitHub上找到，地址是https://github.com/yeyupiaoling/MASR/tree/release/1.0。去掉链接后的版本为：基于Pytorch实现的MASR中文语音识别模型文件源码。

MASR：普通话的中文语音识别

优质

MASR是一款专注于普通话的高效中文语音识别系统，能够准确快速地将口语转换为文本形式，适用于多种场景和应用需求。 MASR是一个基于端到端的深度神经网络的中文普通话语音识别项目。该项目采用门控卷积神经网络（Gated Convolutional Network），其结构参考了Facebook在2016年提出的Wav2letter模型，但激活函数使用的是GLU而非HardTanh或ReLU。根据实验结果，使用GLU的收敛速度比使用HardTanh更快。如果您想研究卷积网络用于语音识别的效果，这个项目可以作为一个很好的参考资料。我们用字错误率（CER）来评估模型的表现，其计算公式为：编辑距离/句子长度，数值越低表示表现越好；大致上1-CER可理解为识别准确率。该模型使用AISHELL-1数据集进行训练，包含共约150小时的录音，并覆盖了4000多个汉字。然而，在工业界中使用的语音识别系统通常会用至少十倍于此的数据量来训练模型，并且还会根据特定场景调整语料库以优化语言模型。因此，请不要期望本项目能够达到同样水平的表现。

基于CNN+GRU+CTC的中文语音识别系统

优质

本项目构建了一种结合卷积神经网络（CNN）、门控循环单元（GRU）及连接时序分类（CTC）技术的先进架构，专为优化中文语音识别性能而设计。通过深度学习模型的有效融合，该系统能够高效地处理连续语音流，并直接输出文本结果，显著提升了在噪音环境下的识别准确率与实时性表现。自动语音识别模型包括cnn+ctc模型和gru+ctc模型。使用tensorflow1.+和keras进行模型训练，实现中文语音识别功能。

用于语音年龄识别的数据集文件

优质

本数据集包含多样的语音样本，旨在训练和评估机器学习模型进行语音年龄识别。涵盖广泛年龄段及性别，适用于研究与开发需求。该数据集包含200条语音文件，格式为wav。这些语音被分为四个年龄段：<19岁、20-29岁、30-39岁和40-49岁，每个年龄段各有50条语音记录。这一集合非常适合用于训练年龄识别的模型。

基于MATLAB的语音识别系统设计（利用CNN网络）

优质

本项目基于MATLAB平台，采用卷积神经网络(CNN)技术构建高效语音识别系统，旨在提升语音数据处理与模式识别能力。基于CNN神经网络的语音识别程序设计涉及使用卷积神经网络来提高语音信号处理能力。这种方法通过深度学习技术增强了模型对音频数据的理解和分类性能，适用于多种语音识别任务。在开发过程中，需要精心选择网络架构、优化超参数，并利用大量的标注语料库进行训练以达到最佳效果。

中文和英文的语音识别测试WAV数据集（共400条）

优质

本数据集包含400条中英文语音识别测试样本，旨在评估与优化语音识别系统的准确性和效率。每条音频文件均为WAV格式。语音数据都是网上开源的，我将这些语音统一为wav格式，可以用于测试paddlespeech/whisper等语音识别模型。

深度语音识别：一个中文的深度语音识别系统...

优质

深度语音识别是一款专为中文设计的先进语音识别软件。采用深度学习技术，提供高精度、高效的语音转文本服务，适用于多种场景和需求。基于深度学习的中文语音识别系统实现了声学模型和语言模型的建模。声学模型包括CNN-CTC、GRU-CTC 和 CNN-RN。近期我计划对该项目进行更新，考虑到TensorFlow已将Keras作为重要组成部分，可能会使用TensorFlow2来修改代码。欢迎大家在issue中提出建议。