Advertisement

DGK_Lost_Conv:中文对话语料库 Chinese Conversation Corpus

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
DGK_Lost_Conv是一款专注于中文对话的研究工具,提供丰富的语料资源,助力自然语言处理领域的学者和开发者深入研究中文对话系统。 dgk_lost_conv包含中文对话语料库,可用于训练聊天机器人。以下是相关文件及其大小: - dgk_shooter_z.conv:110MB(已分词) - dgk_shooter_min.conv:按字分词 - lost.conv:1.7MB - fanzxl.conv:2.3MB - fk24.conv:4.5MB - haosys.conv:1.3MB - juemds.conv:793KB - laoyj.conv:1.5MB - prisonb.conv:543KB 内部方法包括: - 使用asstosrt命令,参数为-s utf-8 - 执行ass和srt相关操作后运行cvgen.py生成.conv文件 特别的shooter73g需要进入shooterwp目录,在该目录下解压mirror.x到rawbase下面,并执行sel.sh脚本。之后在跟目录下进行fixco重写操作。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • DGK_Lost_Conv Chinese Conversation Corpus
    优质
    DGK_Lost_Conv是一款专注于中文对话的研究工具,提供丰富的语料资源,助力自然语言处理领域的学者和开发者深入研究中文对话系统。 dgk_lost_conv包含中文对话语料库,可用于训练聊天机器人。以下是相关文件及其大小: - dgk_shooter_z.conv:110MB(已分词) - dgk_shooter_min.conv:按字分词 - lost.conv:1.7MB - fanzxl.conv:2.3MB - fk24.conv:4.5MB - haosys.conv:1.3MB - juemds.conv:793KB - laoyj.conv:1.5MB - prisonb.conv:543KB 内部方法包括: - 使用asstosrt命令,参数为-s utf-8 - 执行ass和srt相关操作后运行cvgen.py生成.conv文件 特别的shooter73g需要进入shooterwp目录,在该目录下解压mirror.x到rawbase下面,并执行sel.sh脚本。之后在跟目录下进行fixco重写操作。
  • 聊天 Chinese Chatbot Corpus
    优质
    《中文聊天对话语料库》是一款专为语言研究者和开发者设计的数据集,收录了大量真实、自然的中文对话文本,旨在促进中文语境下的自然语言处理技术发展。 该项目是对市面上现有开源中文聊天语料进行搜集与系统化整理的工作成果。库内收录了包括chatterbot、豆瓣多轮对话、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料和小黄鸡语料在内的八种常用闲聊数据及短信等其他类型的聊天记录,并对其进行了统一化处理,使这些资料可以直接用于初步研究或开发工作。 使用此项目可以一次性完成所有聊天数据的下载与预处理,无需自行搜集并分别进行格式转换。环境要求为Python 3版本。 具体来说,各个来源的数据将按照原有格式提取出来,并将其繁体字转换成简体字形式后统一整理成为一轮轮对话的形式。使用方法是解压raw_chat_corpus文件夹至当前目录下(该文件夹包含语言处理管道、原始聊天语料集等),然后运行main.py脚本即可。 项目执行完毕之后,每个来源的语料将以独立*.tsv格式文件形式保存在clean_chat_corpus新生成的文件夹中。这些结果以每行一个样本的方式呈现,每条记录包括query和answer两个部分。 最后提到的是对于聊天机器人方向实践的一些参考意见,主要涵盖了人格设定、敏感词处理等实际产品化过程中可能遇到的问题及解决方案。该项目为非商业性质项目,若存在版权问题,请通过适当渠道反馈。
  • 康奈尔大学电影Cornell Movie-Dialogs Corpus
    优质
    康奈尔大学电影对话语料库(Cornell Movie-Dialogs Corpus)是一个包含丰富电影对话数据的数据集,为自然语言处理和机器学习研究提供重要资源。 康奈尔大学的电影对白语料库(Cornell Movie-Dialogs Corpus)是一个包含丰富对话数据的数据集。
  • The Lancaster Mandarin Chinese Corpus
    优质
    《The Lancaster Mandarin Chinese Corpus》是由兰卡斯特大学创建的汉语语料库,收录了大量现代标准普通话的真实语言材料,为中文研究与教学提供了宝贵资源。 The Lancaster Corpus of Mandarin Chinese (LCMC) is designed to serve as an equivalent resource for modern Mandarin Chinese, similar to the FLOB and FROWN corpora which are used for British and American English. This corpus can be utilized in monolingual research on contemporary Mandarin Chinese or in cross-linguistic studies comparing Chinese with British/American English. The LCMC includes a sample of 15 categories of written texts, such as news articles, literary works, academic essays, and official documents published in the Peoples Republic of China during the early 1990s. The total size is approximately one million words. It employs the same sampling criteria and time frame used by FLOB/FROWN. The corpus includes markup for text categories, sample file numbers, paragraphs, sentences, and tokens. Linguistic annotations cover tokenization and part-of-speech tagging at the word level with orthographic and morphological details. The Institute of Computing Science Chinese Lexical Analysis System (ICTCLAS) from the Chinese Academy of Sciences provided the tagging system. The corpus is encoded in Unicode (UTF-8) and marked up using XML. It comes with a User Manual that explains design specifications and part-of-speech tags. Xairas parser was used to validate the XML structure, while all aspect markers were manually verified for accuracy in their part-of-speech tagging.
  • 布朗(Brown Corpus)- 数据集
    优质
    布朗语料库是一份经典英语文本数据集,包含50万单词的美国英语样本,按主题和文体分类,为语言分析、模型训练等提供基础资源。 布朗语料库是美国英语的首个文本语料库,它取自不同主题的报纸、书籍以及政府文件,包含1,014,312个单词。该语料库主要用于语言建模,并提供了cats.csv、brown-meta.json和brown.csv等数据文件。
  • 优质
    本资源为高质量中英文平行文本数据库,涵盖新闻、文学、法律等多个领域,旨在促进双语翻译研究与机器学习应用。 鉴于大家的要求,我们发布了百兆以上的中英双语文本供参考。大家可以尝试使用这些资料。
  • 12万条青云.csv
    优质
    12万条对话语料青云库.csv包含了丰富多样的对话数据集,适用于自然语言处理和机器学习的研究与开发。 该资源包含多类文件和对话题库,并收集了市面上多个语言包。如需下载,请注明个人使用且仅限非商业用途。
  • 与英
    优质
    本资源提供丰富的中英文平行文本数据,涵盖各类主题和文体,适用于翻译研究、机器学习等多领域。 一个包含一万句对齐的中英文平行语料库,适用于机器翻译、问答系统等模型的预处理数据。
  • .zip
    优质
    本资源为《中英文对照语料库.zip》,内含丰富多样的中文与英文平行文本数据,适用于翻译研究、双语对比及语言学习等场景。 用于机器翻译和问答系统的中英文平行语料库是模型预处理的重要资源。
  • NiuTrans
    优质
    NiuTrans 中英文对照语料库是由北京大学机器感知与智能教育部重点实验室开发维护的一个大规模双语文本数据集,旨在支持中英翻译模型的研究和训练。 中英文对照语料库可用于训练翻译系统。