
中文文本分类数据集(复旦大学)(含训练集和测试集)
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本数据集由复旦大学提供,包含大量经过标注的中文文本样本,适用于进行中文自然语言处理任务中的分类研究。
中文文本分类语料(复旦)包括训练集和测试集两部分,由复旦大学李荣陆提供。test_corpus为测试数据集合,包含9833篇文档;train_corpus为训练数据集合,包含9804篇文档。两个数据集各分为20个相同类别,并且按照大致1:1的比例进行划分。使用时建议注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。文件较大,请耐心等待下载完成。
全部评论 (0)
还没有任何评论哟~


