Chinese-Mandarin-Dictionaries: 中文普通话词典-ITADN社区

优质

中文普通话词典是一款全面的语言学习工具，提供丰富的词汇、例句和发音功能，帮助用户有效掌握汉语普通话。中文普通话词典自述文件：进行中关于说明：这是一组免费的中文普通话词典，可以与Goldendict等字典软件配合使用。 Todo（接下来要做）： 1. 中文单词频率：基于语料库和HSK等级。 2. 让我成为汉字动画和说明。 3. 成语：来自免费提供的论文以及BCC成语词典的英语翻译。请上传时添加完整参考，检查法律条款。 4. CC-Cedict带有放大字符功能。 5. 手令：使用德语的英语机器翻译（用于cc-cedict中未找到的单词）。 6. 中文语音词典：与注音、拼音和IPA结合，并加入“听起来像”英语发音，添加GPL音频。 7. Unihan字符词典。 8. 词组词典：使用tatoeba提供的分词数据及CUV圣经（已分段）。

The Lancaster Mandarin Chinese Corpus

优质

《The Lancaster Mandarin Chinese Corpus》是由兰卡斯特大学创建的汉语语料库，收录了大量现代标准普通话的真实语言材料，为中文研究与教学提供了宝贵资源。 The Lancaster Corpus of Mandarin Chinese (LCMC) is designed to serve as an equivalent resource for modern Mandarin Chinese, similar to the FLOB and FROWN corpora which are used for British and American English. This corpus can be utilized in monolingual research on contemporary Mandarin Chinese or in cross-linguistic studies comparing Chinese with British/American English. The LCMC includes a sample of 15 categories of written texts, such as news articles, literary works, academic essays, and official documents published in the Peoples Republic of China during the early 1990s. The total size is approximately one million words. It employs the same sampling criteria and time frame used by FLOB/FROWN. The corpus includes markup for text categories, sample file numbers, paragraphs, sentences, and tokens. Linguistic annotations cover tokenization and part-of-speech tagging at the word level with orthographic and morphological details. The Institute of Computing Science Chinese Lexical Analysis System (ICTCLAS) from the Chinese Academy of Sciences provided the tagging system. The corpus is encoded in Unicode (UTF-8) and marked up using XML. It comes with a User Manual that explains design specifications and part-of-speech tags. Xairas parser was used to validate the XML structure, while all aspect markers were manually verified for accuracy in their part-of-speech tagging.

美玲中文女性语音库Mandarin Chinese Voice.rar

优质

美玲中文女性语音库是一款高质量的中文女性发音人声资源包，适用于多种语言合成场景，为开发者和爱好者提供流畅自然的语音体验。软件介绍：这款中文女声语音库适用于XP系统，并且可以在WIN7系统上使用。安装步骤如下：打开或双击ScanSoft_MeiLing_ChineseMandarinVoice.msi文件开始安装过程。完成安装后，启动相应的语音朗读软件即可使用该语音引擎来朗读文字。这款产品名为NextUp-ScanSoft Mei-Ling Mandarin Chinese Voice。

CMU汉语普通话的语音识别发音词典（包含多音词）

优质

本资源为卡内基梅隆大学开发的汉语普通话语音识别项目中的发音词典，特别收录了大量常用多音字词，旨在支持更精确的语音识别研究与应用。 CMU汉语普通话语音识别发音词典（包含多音词），共7万个词条。

Python-DaCiDian：一个开源的中文普通话词典，适用于自动语音识别(ASR)

优质

Python-DaCiDian是一款开源的中文普通话词典，专为自动语音识别系统设计，助力开发者提升ASR应用中的语言处理能力。 DaCiDian是一个开源的中文普通话词汇库，用于自动语音识别（ASR）。

ScanSoft Meiling 普通话中文语音包

优质

ScanSoft Meiling普通话中文语音包是专为中文用户设计的一款高质量文本转语音(TTS)软件插件，能够将电子文档转换成自然流畅的普通话音频，极大地方便了用户的听读需求。在使用ScanSoft_MeiLing_ChineseMandarinVoice这款中文TTS语音包的过程中，我发现它的音质比较好听。

中文分词词典UserDict.txt词典文件

优质

UserDict.txt是一款自定义的中文分词词典，用于增强分词工具如jieba的词汇覆盖率和准确性，适用于特定领域或个人需求。在使用jiba分词的情况下，利用这个词典可以提高你的分词准确度，因为它包含了来自某dog的几十个细胞词库中的众多领域词汇。该词典已转换为txt格式，欢迎下载。

MASR：普通话的中文语音识别

优质

MASR是一款专注于普通话的高效中文语音识别系统，能够准确快速地将口语转换为文本形式，适用于多种场景和应用需求。 MASR是一个基于端到端的深度神经网络的中文普通话语音识别项目。该项目采用门控卷积神经网络（Gated Convolutional Network），其结构参考了Facebook在2016年提出的Wav2letter模型，但激活函数使用的是GLU而非HardTanh或ReLU。根据实验结果，使用GLU的收敛速度比使用HardTanh更快。如果您想研究卷积网络用于语音识别的效果，这个项目可以作为一个很好的参考资料。我们用字错误率（CER）来评估模型的表现，其计算公式为：编辑距离/句子长度，数值越低表示表现越好；大致上1-CER可理解为识别准确率。该模型使用AISHELL-1数据集进行训练，包含共约150小时的录音，并覆盖了4000多个汉字。然而，在工业界中使用的语音识别系统通常会用至少十倍于此的数据量来训练模型，并且还会根据特定场景调整语料库以优化语言模型。因此，请不要期望本项目能够达到同样水平的表现。

中文分词词典

优质

《中文分词词典》是一部全面收录中文词汇，并提供详细词语解释、用法及搭配等信息的专业工具书，旨在帮助读者准确理解和运用汉语词汇。这是前一段时间我在研究中文分词时在网上找到的一个词典，TXT格式的，拿出来分享一下。

中文分词词典

优质

《中文分词词典》是一款专为自然语言处理设计的工具书，收录了大量词汇及短语，帮助用户准确高效地进行中文文本的分词处理。中文分词使用的词典涵盖范围很广，可以直接使用的词典资源在进行相关程序开发时非常有用。

是否确定退出登录?

Chinese-Mandarin-Dictionaries: 中文普通话词典

全部评论 (0)