Advertisement

MASR:普通话的中文语音识别

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
MASR是一款专注于普通话的高效中文语音识别系统,能够准确快速地将口语转换为文本形式,适用于多种场景和应用需求。 MASR是一个基于端到端的深度神经网络的中文普通话语音识别项目。该项目采用门控卷积神经网络(Gated Convolutional Network),其结构参考了Facebook在2016年提出的Wav2letter模型,但激活函数使用的是GLU而非HardTanh或ReLU。根据实验结果,使用GLU的收敛速度比使用HardTanh更快。 如果您想研究卷积网络用于语音识别的效果,这个项目可以作为一个很好的参考资料。我们用字错误率(CER)来评估模型的表现,其计算公式为:编辑距离/句子长度,数值越低表示表现越好;大致上1-CER可理解为识别准确率。 该模型使用AISHELL-1数据集进行训练,包含共约150小时的录音,并覆盖了4000多个汉字。然而,在工业界中使用的语音识别系统通常会用至少十倍于此的数据量来训练模型,并且还会根据特定场景调整语料库以优化语言模型。因此,请不要期望本项目能够达到同样水平的表现。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • MASR
    优质
    MASR是一款专注于普通话的高效中文语音识别系统,能够准确快速地将口语转换为文本形式,适用于多种场景和应用需求。 MASR是一个基于端到端的深度神经网络的中文普通话语音识别项目。该项目采用门控卷积神经网络(Gated Convolutional Network),其结构参考了Facebook在2016年提出的Wav2letter模型,但激活函数使用的是GLU而非HardTanh或ReLU。根据实验结果,使用GLU的收敛速度比使用HardTanh更快。 如果您想研究卷积网络用于语音识别的效果,这个项目可以作为一个很好的参考资料。我们用字错误率(CER)来评估模型的表现,其计算公式为:编辑距离/句子长度,数值越低表示表现越好;大致上1-CER可理解为识别准确率。 该模型使用AISHELL-1数据集进行训练,包含共约150小时的录音,并覆盖了4000多个汉字。然而,在工业界中使用的语音识别系统通常会用至少十倍于此的数据量来训练模型,并且还会根据特定场景调整语料库以优化语言模型。因此,请不要期望本项目能够达到同样水平的表现。
  • ScanSoft Meiling
    优质
    ScanSoft Meiling普通话中文语音包是专为中文用户设计的一款高质量文本转语音(TTS)软件插件,能够将电子文档转换成自然流畅的普通话音频,极大地方便了用户的听读需求。 在使用ScanSoft_MeiLing_ChineseMandarinVoice这款中文TTS语音包的过程中,我发现它的音质比较好听。
  • 基于PytorchMASR模型件(旧版)
    优质
    本资源提供了一个基于Pytorch框架构建的中文自动语音识别(MASR)模型的老版本文件。该模型专为理解和转录普通话设计,适用于研究和开发用途。 基于Pytorch实现的MASR中文语音识别模型文件源码可以在GitHub上找到,地址是https://github.com/yeyupiaoling/MASR/tree/release/1.0。 去掉链接后的版本为: 基于Pytorch实现的MASR中文语音识别模型文件源码。
  • CMU汉词典(包含多词)
    优质
    本资源为卡内基梅隆大学开发的汉语普通话语音识别项目中的发音词典,特别收录了大量常用多音字词,旨在支持更精确的语音识别研究与应用。 CMU汉语普通话语音识别发音词典(包含多音词),共7万个词条。
  • 与方言料样本示例
    优质
    本示例包含普通话及多种方言的语音识别数据样本,旨在展示不同语言变体在技术处理中的特点和挑战。 本数据集是600人方言与普通话的语音识别语料库的一部分。样例包含了4个发音人的少量录音(两男两女)。完整的语料库包括了来自全国不同地区、年龄层和文化背景的600名发音人,涵盖安静环境至嘈杂环境的各种录制条件,如使用座机、手机或车载设备,并伴有音乐或其他噪音。此外,该数据集还包含了从单字到词汇句型再到自然对话及语篇等多样化的语音材料。采样率分为8K和44K两种规格,采用16比特量化处理,并提供文字、拼音、韵律以及音频标注等多种形式的注解信息。 此数据集的主要用途是支持语音识别技术的研发与应用。
  • 基于Librispeech数据集MASR模型
    优质
    该简介似乎存在一些混淆,题目提到的是基于Librispeech的数据集的MASR中文语音识别模型。LibriSpeech是一个主要用于英语语音识别的大规模数据集,而题目中提及的是用于中文的MASR(可能指的是Model-Aware Speech Recognition)。这看起来像是一个错误或不匹配的情况。 如果意图是介绍一个基于类似LibriSpeech结构但针对中文的大型语料库开发的MASR模型,那么可以这样描述: 简介: MASR是一个中文语音识别模型,基于Librispeech数据集。源码可以在GitHub上找到,地址是https://github.com/yeyupiaoling/MASR。不过根据要求要去掉链接,因此只提供相关信息:该模型的代码托管在GitHub平台上,用户名为yeyupiaoling。
  • Android (-11_098).zip
    优质
    这是一个名为Android 语音通话的压缩文件,包含语音识别相关的代码或资源,于2023年11月9日创建。该文件可能用于开发安卓系统的语音识别应用程序。 安卓语音控制拨打电话等功能可以通过配置相关的XML模块来实现。例如: ```xml
  • MASR模型——基于AIShell数据集(179小时)
    优质
    简介:MASR为一款高效中文语音识别模型,训练基础为包含179小时丰富语料的AIShell数据集,适用于各类语音转文本的应用场景。 MASR是一个中文语音识别模型,并且在aishell数据集上进行了训练,该数据集包含179小时的录音。
  • Python-DaCiDian:一个开源词典,适用于自动(ASR)
    优质
    Python-DaCiDian是一款开源的中文普通话词典,专为自动语音识别系统设计,助力开发者提升ASR应用中的语言处理能力。 DaCiDian是一个开源的中文普通话词汇库,用于自动语音识别(ASR)。
  • cmusphinx-zh-cn-5.2pocketsphinx模块
    优质
    CMUSphinx-zh-cn-5.2中的PocketSphinx普通话识别模块是一个高效的语音转文字工具,专为中文设计,适用于多种应用场景。 在Python的语音识别库pocketsphinx中使用中文识别模块来解析普通话。官方提供的版本需要进行额外的操作如文件重命名,并且运行速度较慢。而这个版本只需解压后放到site-packages/pocketsphinx/model目录即可直接使用,更加方便快捷。