Advertisement

该数据集用于中文文本分类。

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
该新闻栏目中文文本分类系统,涵盖了多个新闻类别,具体包括:体育、时政、房产、家居、财经、时尚、科技、教育、娱乐以及游戏。各个新闻类别的数量均设定为5000条,通过对这些新闻内容作为训练样本,构建模型,从而使模型具备预测新条新闻所属栏目的能力。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • .zip
    优质
    本资料包包含多种中文文本分类的数据集,适用于训练和测试机器学习模型在自然语言处理任务中的性能。 针对新闻栏目的中文文本分类任务,每个栏目包含5000条新闻:体育、时政、房产、家居、财经、时尚、科技、教育和娱乐。通过对这些新闻内容进行训练,可以构建一个模型来预测每条新闻所属的栏目。
  • CNEWS
    优质
    CNEWS中文文本分类数据集是一套包含新闻文章及其对应类别的大型数据集合,旨在促进中文自然语言处理领域的研究与应用。 cnews中文文本分类数据集是由清华大学根据新浪新闻RSS订阅频道2005年至2011年间的历史数据筛选过滤生成的。训练过程的具体细节可以在我的博客中找到。
  • 优质
    文本分类数据集是一系列被预先标记好类别的文档集合,用于训练和测试机器学习模型识别新文本的主题或情感等属性。 Spark MLlib实现的中文文本分类使用了Naive Bayes算法。训练模型所需的语料库很重要,在这里我采用的是搜狗提供的早期分类语料库,仅供学习测试之用。
  • 新闻
    优质
    该数据集包含了大量经过人工标注的中文新闻文本样本,适用于训练和评估新闻文本分类模型的性能。 资源为新闻类的中文文本分类数据集,能够满足机器学习和文字分析方面的需求。
  • ag_news
    优质
    AG News 数据集是一款用于文本分类任务的数据集合,包含大约12万条新闻文章样本,涵盖4个主要类别。 AG News Topic Classification Dataset Version 3, Updated 09/09/2015 ORIGIN: AG is a collection of more than one million news articles gathered from over two thousand sources by ComeToMyHead in more than one year. ComeToMyHead has been an academic news search engine since July 2004. The dataset is provided for research purposes, such as data mining (clustering and classification), information retrieval (ranking and searching), XML processing, data compression, data streaming, and other non-commercial activities. DESCRIPTION: The AGs news topic classification dataset was created by selecting the four largest classes from the original corpus. Each class contains 30,000 training samples and 1,900 testing samples. The total number of training samples is 120,000 and there are a total of 7,600 testing samples. The file classes.txt lists all classes corresponding to each label. Files named train.csv and test.csv contain the training and test data respectively as comma-separated values. Each row in these files consists of three columns: class index (1 to 4), title, and description. The titles and descriptions are enclosed within double quotes (). Any internal double quote is represented by two consecutive double quotes () while new lines are denoted by a backslash followed with an n character (\n).
  • 项目的.rar
    优质
    这是一个包含各类中文文本分类项目的数据集合压缩文件,适用于训练和测试文本分类模型。 “复旦大学计算机信息与技术国际数据库中心自然语言处理小组”提供了小样本中文文本分类语料,分为训练集和测试集两部分。内容真实有效。
  • 复旦大学的
    优质
    该数据集由复旦大学提供,专注于中文文本分类任务,涵盖多个领域和类别,为研究者提供了丰富的语料资源。 本语料库由复旦大学李荣陆提供。train.zip包含9804篇文档,test.zip包含9832篇文档,都分为20个类别。下载后可以自行重新切分数据或直接使用。请在使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。
  • 复旦大学.zip
    优质
    该数据集为复旦大学提供的中文文本分类资源,包含多个类别、大量标注样本,适用于训练和评估文档自动分类算法。 本语料库由复旦大学李荣陆提供。test_corpus.rar包含9833篇测试文档;train_corpus.rar则有9804篇训练文档,两个语料集各分为20个相同类别。训练数据与测试数据基本按照1:1的比例划分。(使用时请尽量注明资料来源(复旦大学计算机信息与技术系国)。)
  • 新闻
    优质
    这是一个包含各类新闻文章的数据集合,用于训练和测试机器学习模型进行自动化的新闻分类。该数据集包含了丰富的标签类别以及大量的文档内容。 该新闻数据集与一篇关于使用Python进行新闻文本分类的项目相对应,该项目代码详尽,读者可自行实现。