Advertisement

中文聊天对话语料库 Chinese Chatbot Corpus

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
《中文聊天对话语料库》是一款专为语言研究者和开发者设计的数据集,收录了大量真实、自然的中文对话文本,旨在促进中文语境下的自然语言处理技术发展。 该项目是对市面上现有开源中文聊天语料进行搜集与系统化整理的工作成果。库内收录了包括chatterbot、豆瓣多轮对话、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料和小黄鸡语料在内的八种常用闲聊数据及短信等其他类型的聊天记录,并对其进行了统一化处理,使这些资料可以直接用于初步研究或开发工作。 使用此项目可以一次性完成所有聊天数据的下载与预处理,无需自行搜集并分别进行格式转换。环境要求为Python 3版本。 具体来说,各个来源的数据将按照原有格式提取出来,并将其繁体字转换成简体字形式后统一整理成为一轮轮对话的形式。使用方法是解压raw_chat_corpus文件夹至当前目录下(该文件夹包含语言处理管道、原始聊天语料集等),然后运行main.py脚本即可。 项目执行完毕之后,每个来源的语料将以独立*.tsv格式文件形式保存在clean_chat_corpus新生成的文件夹中。这些结果以每行一个样本的方式呈现,每条记录包括query和answer两个部分。 最后提到的是对于聊天机器人方向实践的一些参考意见,主要涵盖了人格设定、敏感词处理等实际产品化过程中可能遇到的问题及解决方案。该项目为非商业性质项目,若存在版权问题,请通过适当渠道反馈。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • Chinese Chatbot Corpus
    优质
    《中文聊天对话语料库》是一款专为语言研究者和开发者设计的数据集,收录了大量真实、自然的中文对话文本,旨在促进中文语境下的自然语言处理技术发展。 该项目是对市面上现有开源中文聊天语料进行搜集与系统化整理的工作成果。库内收录了包括chatterbot、豆瓣多轮对话、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料和小黄鸡语料在内的八种常用闲聊数据及短信等其他类型的聊天记录,并对其进行了统一化处理,使这些资料可以直接用于初步研究或开发工作。 使用此项目可以一次性完成所有聊天数据的下载与预处理,无需自行搜集并分别进行格式转换。环境要求为Python 3版本。 具体来说,各个来源的数据将按照原有格式提取出来,并将其繁体字转换成简体字形式后统一整理成为一轮轮对话的形式。使用方法是解压raw_chat_corpus文件夹至当前目录下(该文件夹包含语言处理管道、原始聊天语料集等),然后运行main.py脚本即可。 项目执行完毕之后,每个来源的语料将以独立*.tsv格式文件形式保存在clean_chat_corpus新生成的文件夹中。这些结果以每行一个样本的方式呈现,每条记录包括query和answer两个部分。 最后提到的是对于聊天机器人方向实践的一些参考意见,主要涵盖了人格设定、敏感词处理等实际产品化过程中可能遇到的问题及解决方案。该项目为非商业性质项目,若存在版权问题,请通过适当渠道反馈。
  • DGK_Lost_Conv: Chinese Conversation Corpus
    优质
    DGK_Lost_Conv是一款专注于中文对话的研究工具,提供丰富的语料资源,助力自然语言处理领域的学者和开发者深入研究中文对话系统。 dgk_lost_conv包含中文对话语料库,可用于训练聊天机器人。以下是相关文件及其大小: - dgk_shooter_z.conv:110MB(已分词) - dgk_shooter_min.conv:按字分词 - lost.conv:1.7MB - fanzxl.conv:2.3MB - fk24.conv:4.5MB - haosys.conv:1.3MB - juemds.conv:793KB - laoyj.conv:1.5MB - prisonb.conv:543KB 内部方法包括: - 使用asstosrt命令,参数为-s utf-8 - 执行ass和srt相关操作后运行cvgen.py生成.conv文件 特别的shooter73g需要进入shooterwp目录,在该目录下解压mirror.x到rawbase下面,并执行sel.sh脚本。之后在跟目录下进行fixco重写操作。
  • 康奈尔大学电影Cornell Movie-Dialogs Corpus
    优质
    康奈尔大学电影对话语料库(Cornell Movie-Dialogs Corpus)是一个包含丰富电影对话数据的数据集,为自然语言处理和机器学习研究提供重要资源。 康奈尔大学的电影对白语料库(Cornell Movie-Dialogs Corpus)是一个包含丰富对话数据的数据集。
  • 记录:chinese_chatbot_corpus
    优质
    Chinese_chatbot_corpus是一款全面的中文对话数据集,包含丰富多样的日常交流文本,旨在促进自然语言处理技术的发展和提升聊天机器人的互动能力。 该库是对现有开源中文聊天语料的搜集与系统化整理工作。它包含了豆瓣多轮对话、PTT八卦、青云语料、电视剧对白、贴吧论坛回帖、微博内容、小黄鸡问答以及短信等8个公开闲聊常用数据集,并进行了统一处理,使其可以直接使用。 通过该项目,可以一次性获取并处理所有聊天语料,无需自行搜集和分别处理不同格式的数据。这些语料均已下载好,在项目中提供提取码f2ex进行访问。 **环境:Python3** **处理过程:** - 按照原格式从各个来源提取数据 - 将繁体字转换为简体字 - 统一整理成一轮轮对话的形式 **数据来源及说明:** | 语料名称 | 数量 | 来源 | 特点 | |----------|------------|------------------|--------------------| | chatterbot | 560条 | 开源项目 | | 以上所有语料均已完成预处理,可以直接使用。
  • 机器人的Chatbot源码
    优质
    这段代码是用于开发中文聊天机器人的开源程序,旨在帮助开发者构建具备自然语言处理能力的人工智能对话系统。 本段落使用jieba分词来构建中文词汇表,并基于此开发了一个中文聊天机器人。
  • The Lancaster Mandarin Chinese Corpus
    优质
    《The Lancaster Mandarin Chinese Corpus》是由兰卡斯特大学创建的汉语语料库,收录了大量现代标准普通话的真实语言材料,为中文研究与教学提供了宝贵资源。 The Lancaster Corpus of Mandarin Chinese (LCMC) is designed to serve as an equivalent resource for modern Mandarin Chinese, similar to the FLOB and FROWN corpora which are used for British and American English. This corpus can be utilized in monolingual research on contemporary Mandarin Chinese or in cross-linguistic studies comparing Chinese with British/American English. The LCMC includes a sample of 15 categories of written texts, such as news articles, literary works, academic essays, and official documents published in the Peoples Republic of China during the early 1990s. The total size is approximately one million words. It employs the same sampling criteria and time frame used by FLOB/FROWN. The corpus includes markup for text categories, sample file numbers, paragraphs, sentences, and tokens. Linguistic annotations cover tokenization and part-of-speech tagging at the word level with orthographic and morphological details. The Institute of Computing Science Chinese Lexical Analysis System (ICTCLAS) from the Chinese Academy of Sciences provided the tagging system. The corpus is encoded in Unicode (UTF-8) and marked up using XML. It comes with a User Manual that explains design specifications and part-of-speech tags. Xairas parser was used to validate the XML structure, while all aspect markers were manually verified for accuracy in their part-of-speech tagging.
  • 多轮机器人的闲
    优质
    本项目专注于开发用于多轮对话中的机器人闲聊语料库,旨在提升人机交互自然度和流畅性。 为了生成用于闲聊机器人训练的1.03MB对话数据,让两个机器人进行相互交流,并以#作为多轮对话之间的分隔符。
  • Spring Boot 会机器人的支持框架:spring-boot-chatbot
    优质
    spring-boot-chatbot是一款专为Spring Boot应用设计的便捷式聊天机器人开发框架。它简化了聊天机器人的实现流程,提供全面的功能与灵活的配置选项,帮助企业快速集成智能对话系统。 Kingbbode Spring Boot 聊天机器人 这是一个基于Spring Boot的交互式聊天机器人的支持框架! 该框架基于Spring构建。 它提供1:1互动交付,并且界面易于开发。 入门包包括: - chatbot-spring-boot-slack-starter - chatbot-spring-boot-line-starter - chatbot-spring-boot-telegram-starter - chatbot-spring-boot-teamup-starter 发行说明: 0.6.0 版本支持分布式环境。 0.5.0 版本更新了Slack库(allbegray -> slack sdk)。 介绍部分包括一个回声示例: ```java public class FirstBrain { @BrainCell(key = 따라해봐, function = echo) ``` 此代码片段定义了一个简单的聊天机器人响应,当用户输入따라해봐时,机器人会返回相同的消息。
  • 布朗(Brown Corpus)- 数据集
    优质
    布朗语料库是一份经典英语文本数据集,包含50万单词的美国英语样本,按主题和文体分类,为语言分析、模型训练等提供基础资源。 布朗语料库是美国英语的首个文本语料库,它取自不同主题的报纸、书籍以及政府文件,包含1,014,312个单词。该语料库主要用于语言建模,并提供了cats.csv、brown-meta.json和brown.csv等数据文件。
  • 剧情模拟器,模拟器
    优质
    聊天剧情模拟器是一款创新的对话聊天应用,它允许用户创建和参与各种情景下的互动对话,体验丰富多变的角色扮演乐趣。 可以自己编写脚本,十分简单,然后运行即可实现剧情聊天。外部编写脚本支持中文输入,但内部编写脚本不支持中文,请记得切换为英文输入(注意:软件界面内不支持复制、撤销、粘贴功能;当一行过长时请手动回车换行)。在软件界面上使用Tab键进行按钮的切换,Enter键用于选择选项,Esc键则用于返回。退出后,文件与存档会自动保存。