Advertisement

The Lancaster Mandarin Chinese Corpus

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
《The Lancaster Mandarin Chinese Corpus》是由兰卡斯特大学创建的汉语语料库,收录了大量现代标准普通话的真实语言材料,为中文研究与教学提供了宝贵资源。 The Lancaster Corpus of Mandarin Chinese (LCMC) is designed to serve as an equivalent resource for modern Mandarin Chinese, similar to the FLOB and FROWN corpora which are used for British and American English. This corpus can be utilized in monolingual research on contemporary Mandarin Chinese or in cross-linguistic studies comparing Chinese with British/American English. The LCMC includes a sample of 15 categories of written texts, such as news articles, literary works, academic essays, and official documents published in the Peoples Republic of China during the early 1990s. The total size is approximately one million words. It employs the same sampling criteria and time frame used by FLOB/FROWN. The corpus includes markup for text categories, sample file numbers, paragraphs, sentences, and tokens. Linguistic annotations cover tokenization and part-of-speech tagging at the word level with orthographic and morphological details. The Institute of Computing Science Chinese Lexical Analysis System (ICTCLAS) from the Chinese Academy of Sciences provided the tagging system. The corpus is encoded in Unicode (UTF-8) and marked up using XML. It comes with a User Manual that explains design specifications and part-of-speech tags. Xairas parser was used to validate the XML structure, while all aspect markers were manually verified for accuracy in their part-of-speech tagging.

全部评论 (0)

还没有任何评论哟~
客服
客服
  • The Lancaster Mandarin Chinese Corpus
    优质
    《The Lancaster Mandarin Chinese Corpus》是由兰卡斯特大学创建的汉语语料库,收录了大量现代标准普通话的真实语言材料,为中文研究与教学提供了宝贵资源。 The Lancaster Corpus of Mandarin Chinese (LCMC) is designed to serve as an equivalent resource for modern Mandarin Chinese, similar to the FLOB and FROWN corpora which are used for British and American English. This corpus can be utilized in monolingual research on contemporary Mandarin Chinese or in cross-linguistic studies comparing Chinese with British/American English. The LCMC includes a sample of 15 categories of written texts, such as news articles, literary works, academic essays, and official documents published in the Peoples Republic of China during the early 1990s. The total size is approximately one million words. It employs the same sampling criteria and time frame used by FLOB/FROWN. The corpus includes markup for text categories, sample file numbers, paragraphs, sentences, and tokens. Linguistic annotations cover tokenization and part-of-speech tagging at the word level with orthographic and morphological details. The Institute of Computing Science Chinese Lexical Analysis System (ICTCLAS) from the Chinese Academy of Sciences provided the tagging system. The corpus is encoded in Unicode (UTF-8) and marked up using XML. It comes with a User Manual that explains design specifications and part-of-speech tags. Xairas parser was used to validate the XML structure, while all aspect markers were manually verified for accuracy in their part-of-speech tagging.
  • Chinese-Mandarin-Dictionaries: 中文普通话词典
    优质
    中文普通话词典是一款全面的语言学习工具,提供丰富的词汇、例句和发音功能,帮助用户有效掌握汉语普通话。 中文普通话词典自述文件:进行中 关于说明: 这是一组免费的中文普通话词典,可以与Goldendict等字典软件配合使用。 Todo(接下来要做): 1. 中文单词频率:基于语料库和HSK等级。 2. 让我成为汉字动画和说明。 3. 成语:来自免费提供的论文以及BCC成语词典的英语翻译。请上传时添加完整参考,检查法律条款。 4. CC-Cedict带有放大字符功能。 5. 手令:使用德语的英语机器翻译(用于cc-cedict中未找到的单词)。 6. 中文语音词典:与注音、拼音和IPA结合,并加入“听起来像”英语发音,添加GPL音频。 7. Unihan字符词典。 8. 词组词典:使用tatoeba提供的分词数据及CUV圣经(已分段)。
  • 美玲中文女性语音库Mandarin Chinese Voice.rar
    优质
    美玲中文女性语音库是一款高质量的中文女性发音人声资源包,适用于多种语言合成场景,为开发者和爱好者提供流畅自然的语音体验。 软件介绍:这款中文女声语音库适用于XP系统,并且可以在WIN7系统上使用。安装步骤如下:打开或双击ScanSoft_MeiLing_ChineseMandarinVoice.msi文件开始安装过程。完成安装后,启动相应的语音朗读软件即可使用该语音引擎来朗读文字。这款产品名为NextUp-ScanSoft Mei-Ling Mandarin Chinese Voice。
  • DGK_Lost_Conv:中文对话语料库 Chinese Conversation Corpus
    优质
    DGK_Lost_Conv是一款专注于中文对话的研究工具,提供丰富的语料资源,助力自然语言处理领域的学者和开发者深入研究中文对话系统。 dgk_lost_conv包含中文对话语料库,可用于训练聊天机器人。以下是相关文件及其大小: - dgk_shooter_z.conv:110MB(已分词) - dgk_shooter_min.conv:按字分词 - lost.conv:1.7MB - fanzxl.conv:2.3MB - fk24.conv:4.5MB - haosys.conv:1.3MB - juemds.conv:793KB - laoyj.conv:1.5MB - prisonb.conv:543KB 内部方法包括: - 使用asstosrt命令,参数为-s utf-8 - 执行ass和srt相关操作后运行cvgen.py生成.conv文件 特别的shooter73g需要进入shooterwp目录,在该目录下解压mirror.x到rawbase下面,并执行sel.sh脚本。之后在跟目录下进行fixco重写操作。
  • 中文聊天对话语料库 Chinese Chatbot Corpus
    优质
    《中文聊天对话语料库》是一款专为语言研究者和开发者设计的数据集,收录了大量真实、自然的中文对话文本,旨在促进中文语境下的自然语言处理技术发展。 该项目是对市面上现有开源中文聊天语料进行搜集与系统化整理的工作成果。库内收录了包括chatterbot、豆瓣多轮对话、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料和小黄鸡语料在内的八种常用闲聊数据及短信等其他类型的聊天记录,并对其进行了统一化处理,使这些资料可以直接用于初步研究或开发工作。 使用此项目可以一次性完成所有聊天数据的下载与预处理,无需自行搜集并分别进行格式转换。环境要求为Python 3版本。 具体来说,各个来源的数据将按照原有格式提取出来,并将其繁体字转换成简体字形式后统一整理成为一轮轮对话的形式。使用方法是解压raw_chat_corpus文件夹至当前目录下(该文件夹包含语言处理管道、原始聊天语料集等),然后运行main.py脚本即可。 项目执行完毕之后,每个来源的语料将以独立*.tsv格式文件形式保存在clean_chat_corpus新生成的文件夹中。这些结果以每行一个样本的方式呈现,每条记录包括query和answer两个部分。 最后提到的是对于聊天机器人方向实践的一些参考意见,主要涵盖了人格设定、敏感词处理等实际产品化过程中可能遇到的问题及解决方案。该项目为非商业性质项目,若存在版权问题,请通过适当渠道反馈。
  • The-Zynq-Book-ebook-chinese-未加密版.pdf
    优质
    《The Zynq Book》中文未加密版电子书,详尽介绍Zynq SoC架构、开发流程及应用实例,适合嵌入式系统设计人员阅读。 Zedboard和ZYBO的总体概述可以帮助你理解Zedboard的使用方法。这段文字旨在从宏观角度出发,使读者能够对这两个硬件平台有一个全面的认识,并为学习如何使用Zedboard打下坚实的基础。
  • 宾州中文树库分词指南手册《The Segmentation Guidelines for the Penn Chinese Treebank...》
    优质
    《The Segmentation Guidelines for the Penn Chinese Treebank》是一份详尽的手册,为宾夕法尼亚中文语料库提供标准分词规则,旨在促进汉语自然语言处理的标准化与一致性。 宾州中文树库的文档之一描述了该树库的分词准则。文档导读提供了对这一内容的基本介绍。
  • T46 Speech Corpus
    优质
    T46 Speech Corpus是一个包含大量语音数据的语料库,旨在支持各种语音识别和合成技术的研究与开发。 TI46数据集包含数字0到9的语料文件。
  • CASIA汉语情感 corpus
    优质
    CASIA汉语情感语料库是由中国科学院自动化研究所构建的大规模中文文本情感分析资源库,包含丰富的情感标注数据,广泛应用于自然语言处理和人工智能领域。 情感语料库可用于机器学习,并将结果应用于业务逻辑,为业务提供相关功能。
  • Chinese Subtitle Downloader: Download Chinese subtitles for videos...
    优质
    Chinese Subtitle Downloader是一款便捷的应用程序,专为下载视频的中文字幕而设计。它支持多种来源和格式,帮助用户轻松获取并享受多媒体内容的本地化体验。 中文.subtitle.downloader 是一个简单且轻量级的工具,用于根据视频文件名在各大字幕网站上搜索并下载中文字幕。由于使用了 Linux shell 脚本编写,无需安装额外支持软件,在任何 Linux 系统(特别是 NAS 服务器)下均可运行。 主要功能包括: - 支持手动单个或多个文件及目录的字幕下载 - 可与 transmission-daemon 集成,在种子下载完成后自动搜索和下载字幕