
中文聊天记录语料库:chinese_chatbot_corpus
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
Chinese_chatbot_corpus是一款全面的中文对话数据集,包含丰富多样的日常交流文本,旨在促进自然语言处理技术的发展和提升聊天机器人的互动能力。
该库是对现有开源中文聊天语料的搜集与系统化整理工作。它包含了豆瓣多轮对话、PTT八卦、青云语料、电视剧对白、贴吧论坛回帖、微博内容、小黄鸡问答以及短信等8个公开闲聊常用数据集,并进行了统一处理,使其可以直接使用。
通过该项目,可以一次性获取并处理所有聊天语料,无需自行搜集和分别处理不同格式的数据。这些语料均已下载好,在项目中提供提取码f2ex进行访问。
**环境:Python3**
**处理过程:**
- 按照原格式从各个来源提取数据
- 将繁体字转换为简体字
- 统一整理成一轮轮对话的形式
**数据来源及说明:**
| 语料名称 | 数量 | 来源 | 特点 |
|----------|------------|------------------|--------------------|
| chatterbot | 560条 | 开源项目 | |
以上所有语料均已完成预处理,可以直接使用。
全部评论 (0)
还没有任何评论哟~


