Advertisement

复旦大学构建的中文文本分类数据集。

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
本语料库是由复旦大学的李荣陆先生慷慨提供的。其中,train.zip包含9804篇文档,test.zip则包含9832篇文档,所有数据均被细分为20个不同的类别。用户在下载后,可以自主地对数据进行重新划分,或者直接选用现有的数据集。该资源完全免费供大家使用,详细的下载链接如下:链接:https://pan.baidu.com/s/1E2vUjyBtrlG0SBCkO-_IAQ。请务必在使用过程中注明数据的出处,感谢复旦大学计算机信息与技术系国际数据库中心自然语言处理小组的支持。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • 优质
    该数据集由复旦大学提供,专注于中文文本分类任务,涵盖多个领域和类别,为研究者提供了丰富的语料资源。 本语料库由复旦大学李荣陆提供。train.zip包含9804篇文档,test.zip包含9832篇文档,都分为20个类别。下载后可以自行重新切分数据或直接使用。请在使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。
  • .zip
    优质
    该数据集为复旦大学提供的中文文本分类资源,包含多个类别、大量标注样本,适用于训练和评估文档自动分类算法。 本语料库由复旦大学李荣陆提供。test_corpus.rar包含9833篇测试文档;train_corpus.rar则有9804篇训练文档,两个语料集各分为20个相同类别。训练数据与测试数据基本按照1:1的比例划分。(使用时请尽量注明资料来源(复旦大学计算机信息与技术系国)。)
  • (RAR件)
    优质
    本数据集为复旦大学研发的中文文本分类资源,包含大量标注清晰的文档与类别信息,适用于研究及开发自然语言处理中的文本分类技术。 复旦中文文本数据集包含训练集与测试集,数据格式为TXT文件,适用于进行文本分类实验、机器学习及深度学习研究。需要的用户可以下载该数据集。
  • 训练
    优质
    本数据集由复旦大学提供,包含大量的中文文本分类训练样本,旨在促进自然语言处理领域内的研究与应用发展。 本语料库由复旦大学李荣陆提供。其中包含两个压缩文件:test_corpus.rar为测试语料,共有9833篇文档;train_corpus.rar为训练语料,共有9804篇文档。每个数据集均分为20个相同类别,并且训练和测试的数据量基本保持1:1的比例。 在使用这些资源时,请尽量注明引用来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。由于文件较大(单个压缩包约50多兆),下载时请耐心等待。
  • )(含训练和测试
    优质
    本数据集由复旦大学提供,包含大量经过标注的中文文本样本,适用于进行中文自然语言处理任务中的分类研究。 中文文本分类语料(复旦)包括训练集和测试集两部分,由复旦大学李荣陆提供。test_corpus为测试数据集合,包含9833篇文档;train_corpus为训练数据集合,包含9804篇文档。两个数据集各分为20个相同类别,并且按照大致1:1的比例进行划分。使用时建议注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。文件较大,请耐心等待下载完成。
  • 训练与测试
    优质
    本数据集包含复旦大学整理的中文文档分类训练及测试样本,适用于自然语言处理领域中主题分类任务的研究和模型开发。 复旦大学中文文本分类训练集和测试集包含在all文件夹内,该文件夹包含了复旦大学的中文文本分类语料库。其中,test_corpus是从整体语料集中挑选出的一部分,并被划分为测试数据;train_corpus则是剩余部分的数据集合,作为训练数据使用。下载后可以根据自己的需求指定比例来划分训练集和测试集,也可以选择按照文档中给出的方法进行划分。
  • 训练及测试.rar
    优质
    该资源为复旦大学提供的中文文本分类训练和测试数据集,包含多种类别的文档,适用于研究与开发基于机器学习或深度学习的文本分类模型。 文本分类语料包含9833篇文档;其中训练语料与测试语料共9804篇文档,分为20个类别。训练语料和测试语料的比例大致为1:1。
  • 语料库
    优质
    复旦大学中文文本分类语料库是由复旦大学研究团队构建的一个涵盖多个领域的大型中文文档分类数据集,为自然语言处理和信息检索的研究提供了宝贵的资源。 中文文本分类语料库是指用于训练或测试中文自然语言处理任务中的文本分类模型的数据集合。这些数据集通常包含大量标注了类别的文档,可以用来帮助算法识别不同主题或者类型的文本内容。通过使用高质量的语料库,研究人员和开发者能够提升其模型在实际应用中的准确性和效率。
  • 训练与测试.zip
    优质
    该资源包含复旦大学用于中文文本分类研究的训练和测试数据集,适用于自然语言处理领域中机器学习模型的开发与评估。 复旦大学中文文本分类训练集和测试集文件较大,已压缩为zip格式。all文件夹包含复旦大学的中文文本分类语料库,test_corpus是从该语料集中挑选出的一部分作为测试集,而train_corpus则是剩余部分用作训练集。下载后可以根据自己的需求指定比例划分训练集和测试集,也可以按照本段落档中提供的方法进行划分。