Python-DaCiDian：一个开源的中文普通话词典，适用于自动语音识别(ASR)-ITADN社区

Python-DaCiDian：一个开源的中文普通话词典，适用于自动语音识别(ASR)

优质

Python-DaCiDian是一款开源的中文普通话词典，专为自动语音识别系统设计，助力开发者提升ASR应用中的语言处理能力。 DaCiDian是一个开源的中文普通话词汇库，用于自动语音识别（ASR）。

优质

本资源为卡内基梅隆大学开发的汉语普通话语音识别项目中的发音词典，特别收录了大量常用多音字词，旨在支持更精确的语音识别研究与应用。 CMU汉语普通话语音识别发音词典（包含多音词），共7万个词条。

MASR：普通话的中文语音识别

优质

MASR是一款专注于普通话的高效中文语音识别系统，能够准确快速地将口语转换为文本形式，适用于多种场景和应用需求。 MASR是一个基于端到端的深度神经网络的中文普通话语音识别项目。该项目采用门控卷积神经网络（Gated Convolutional Network），其结构参考了Facebook在2016年提出的Wav2letter模型，但激活函数使用的是GLU而非HardTanh或ReLU。根据实验结果，使用GLU的收敛速度比使用HardTanh更快。如果您想研究卷积网络用于语音识别的效果，这个项目可以作为一个很好的参考资料。我们用字错误率（CER）来评估模型的表现，其计算公式为：编辑距离/句子长度，数值越低表示表现越好；大致上1-CER可理解为识别准确率。该模型使用AISHELL-1数据集进行训练，包含共约150小时的录音，并覆盖了4000多个汉字。然而，在工业界中使用的语音识别系统通常会用至少十倍于此的数据量来训练模型，并且还会根据特定场景调整语料库以优化语言模型。因此，请不要期望本项目能够达到同样水平的表现。

Athena - Python中的开源端到端自动语音识别(ASR)引擎实现

优质

Athena是一款开源的Python库，用于构建和部署端到端的自动语音识别系统。它简化了从音频处理到模型训练的整个流程，支持高效的ASR应用开发。 Athena 是一个开源的端到端自动语音识别（ASR）引擎实现。该项目支持多种模型训练与解码，包括基于连接主义时间分类 (CTC) 的模型、基于转换器的编码器-解码器架构以及混合 CTC/注意力机制的模型，并且还提供了无监督预训练的支持。我们的目标是为语音识别领域中的端到端建模技术在工业应用和学术研究中提供支持。为了便于使用，我们发布了多个基于开源数据集（如 HKSUT 和 Librispeech）的示例实现。所有这些模型均采用 Tensorflow 2.0 及以上版本进行开发。 ### Athena 主要功能 - **混合 CTC/Transformer 模型**：Athena 支持结合了连接主义时间分类和转换器架构的语音识别模型，提供了一种新的方法来提高自动语音转录的效果。 ### 安装指南 #### 3.1 创建虚拟环境（可选） - 在安装 Athena 前建议创建一个独立的 Python 环境以避免与其他项目发生冲突。 #### 3.2 安装 TensorFlow 后端 - 首先需要确保您的系统已经正确配置了 TensorFlow 版本大于等于 2.0 的环境。这是运行所有基于 Athena 开发模型的基础要求之一。 #### 3.3 安装 Horovod（可选） - 对于希望进行多设备训练的用户，可以考虑使用 Horovod 来加速并行计算过程。 #### 3.4 安装 athena 包 - 使用 pip 或其他 Python 管理工具安装 Athena 的 Python 包。 #### 注意事项：在开始之前，请确保满足所有先决条件，并根据文档进行正确配置以避免潜在问题。 ### 数据准备与训练流程包括创建清单、设置模型训练的参数文件以及执行实际训练过程的具体步骤。这些部分提供了详细的指南，帮助用户从数据预处理到最终结果生成的完整工作流中顺利过渡。 Athena 项目旨在为开发者提供一个灵活且强大的平台来探索和实现先进的自动语音识别技术，并通过其开源特性促进社区内的合作与创新。

Chinese-Mandarin-Dictionaries: 中文普通话词典

优质

中文普通话词典是一款全面的语言学习工具，提供丰富的词汇、例句和发音功能，帮助用户有效掌握汉语普通话。中文普通话词典自述文件：进行中关于说明：这是一组免费的中文普通话词典，可以与Goldendict等字典软件配合使用。 Todo（接下来要做）： 1. 中文单词频率：基于语料库和HSK等级。 2. 让我成为汉字动画和说明。 3. 成语：来自免费提供的论文以及BCC成语词典的英语翻译。请上传时添加完整参考，检查法律条款。 4. CC-Cedict带有放大字符功能。 5. 手令：使用德语的英语机器翻译（用于cc-cedict中未找到的单词）。 6. 中文语音词典：与注音、拼音和IPA结合，并加入“听起来像”英语发音，添加GPL音频。 7. Unihan字符词典。 8. 词组词典：使用tatoeba提供的分词数据及CUV圣经（已分段）。

ASR评估：一个用于计算ASR系统指标的Python模块（如单词错误率、单词识别率）

优质

这是一款专为语音识别研究人员设计的Python工具包，能够高效地计算自动语音识别系统的性能指标，包括但不限于词错误率和词识别率。 asr_evaluation 是一个用于评估自动语音识别（ASR）假设的Python模块，主要计算字错误率和字识别率。此模块依赖于项目需求，用来计算任意序列之间的编辑距离。程序输出格式参考了Sphinx ASR社区中常用的align.c程序的思想。如果既没有实例也没有混淆情况的话，可能会运行得更快。如果您有任何意见、疑问或问题，请告知我。该程序会输出三个标准测量值： - 单词识别率（即对齐中匹配的单词数量除以参考文本中的总单词数）。 - 句子错误率（SER），计算公式为错误句子的数量除以总的句子数量。安装和卸载方法如下：最简单的方法是使用pip进行安装： ``` pip install asr-evaluation ``` 或者，您可以克隆此git仓库并使用distutils进行安装： ```shell git clone git@github.com:belambert/asr-evaluation.git cd asr-evaluation ```

Wenet Windows版自动语音识别开发库及测试程序(ASR)

优质

Wenet Windows版提供了一套先进的自动语音识别（ASR）开发工具包和配套测试程序，适用于Windows系统环境下的开发者与研究人员。 Wenet 是一个自动语音识别开发库及测试程序（ASR），在 Windows 版本的编译过程中存在较大难度。

ScanSoft Meiling 普通话中文语音包

优质

ScanSoft Meiling普通话中文语音包是专为中文用户设计的一款高质量文本转语音(TTS)软件插件，能够将电子文档转换成自然流畅的普通话音频，极大地方便了用户的听读需求。在使用ScanSoft_MeiLing_ChineseMandarinVoice这款中文TTS语音包的过程中，我发现它的音质比较好听。

深度语音识别：一个中文的深度语音识别系统...

优质

深度语音识别是一款专为中文设计的先进语音识别软件。采用深度学习技术，提供高精度、高效的语音转文本服务，适用于多种场景和需求。基于深度学习的中文语音识别系统实现了声学模型和语言模型的建模。声学模型包括CNN-CTC、GRU-CTC 和 CNN-RN。近期我计划对该项目进行更新，考虑到TensorFlow已将Keras作为重要组成部分，可能会使用TensorFlow2来修改代码。欢迎大家在issue中提出建议。

普通话与方言语音识别语料样本示例

优质

本示例包含普通话及多种方言的语音识别数据样本，旨在展示不同语言变体在技术处理中的特点和挑战。本数据集是600人方言与普通话的语音识别语料库的一部分。样例包含了4个发音人的少量录音（两男两女）。完整的语料库包括了来自全国不同地区、年龄层和文化背景的600名发音人，涵盖安静环境至嘈杂环境的各种录制条件，如使用座机、手机或车载设备，并伴有音乐或其他噪音。此外，该数据集还包含了从单字到词汇句型再到自然对话及语篇等多样化的语音材料。采样率分为8K和44K两种规格，采用16比特量化处理，并提供文字、拼音、韵律以及音频标注等多种形式的注解信息。此数据集的主要用途是支持语音识别技术的研发与应用。

是否确定退出登录?

Python-DaCiDian：一个开源的中文普通话词典，适用于自动语音识别(ASR)

全部评论 (0)