Advertisement

CNEWS中文文本分类数据集

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
CNEWS中文文本分类数据集是一套包含新闻文章及其对应类别的大型数据集合,旨在促进中文自然语言处理领域的研究与应用。 cnews中文文本分类数据集是由清华大学根据新浪新闻RSS订阅频道2005年至2011年间的历史数据筛选过滤生成的。训练过程的具体细节可以在我的博客中找到。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • CNEWS
    优质
    CNEWS中文文本分类数据集是一套包含新闻文章及其对应类别的大型数据集合,旨在促进中文自然语言处理领域的研究与应用。 cnews中文文本分类数据集是由清华大学根据新浪新闻RSS订阅频道2005年至2011年间的历史数据筛选过滤生成的。训练过程的具体细节可以在我的博客中找到。
  • cnews.zip
    优质
    CNews中文数据集包含大量分类新闻文本,适用于进行中文新闻文章的主题分类、文本分析等研究与应用开发。 THUCNews 数据集是基于新浪新闻 RSS 订阅频道在 2005 年至 2011 年间的历史数据筛选过滤生成的,包含约74万篇新闻文档(总计约为2.19GB),所有文档均为UTF-8纯文本格式。在此基础上,我们对原始新浪新闻分类体系进行了重新整合和划分,形成了包括财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏及娱乐在内的共计14个候选分类类别。
  • .zip
    优质
    本资料包包含多种中文文本分类的数据集,适用于训练和测试机器学习模型在自然语言处理任务中的性能。 针对新闻栏目的中文文本分类任务,每个栏目包含5000条新闻:体育、时政、房产、家居、财经、时尚、科技、教育和娱乐。通过对这些新闻内容进行训练,可以构建一个模型来预测每条新闻所属的栏目。
  • 优质
    文本分类数据集是一系列被预先标记好类别的文档集合,用于训练和测试机器学习模型识别新文本的主题或情感等属性。 Spark MLlib实现的中文文本分类使用了Naive Bayes算法。训练模型所需的语料库很重要,在这里我采用的是搜狗提供的早期分类语料库,仅供学习测试之用。
  • CNEWS新闻训练与测试
    优质
    CNEWS数据集是一款专为中文新闻文本设计的分类训练及测试工具,包含大量多标签分类的真实新闻样本。适用于自然语言处理领域的研究和开发工作。 博客文章使用了如下数据: - 训练集文件:cnews.train.txt - 测试集文件:cnew.test.txt - 验证集文件:cnew.val.txt - 词汇表文件:cnews.vocab.txt - 掩码图片(未提供具体链接) - 停用词列表:stopwords.txt
  • 新闻
    优质
    该数据集包含了大量经过人工标注的中文新闻文本样本,适用于训练和评估新闻文本分类模型的性能。 资源为新闻类的中文文本分类数据集,能够满足机器学习和文字分析方面的需求。
  • ag_news
    优质
    AG News 数据集是一款用于文本分类任务的数据集合,包含大约12万条新闻文章样本,涵盖4个主要类别。 AG News Topic Classification Dataset Version 3, Updated 09/09/2015 ORIGIN: AG is a collection of more than one million news articles gathered from over two thousand sources by ComeToMyHead in more than one year. ComeToMyHead has been an academic news search engine since July 2004. The dataset is provided for research purposes, such as data mining (clustering and classification), information retrieval (ranking and searching), XML processing, data compression, data streaming, and other non-commercial activities. DESCRIPTION: The AGs news topic classification dataset was created by selecting the four largest classes from the original corpus. Each class contains 30,000 training samples and 1,900 testing samples. The total number of training samples is 120,000 and there are a total of 7,600 testing samples. The file classes.txt lists all classes corresponding to each label. Files named train.csv and test.csv contain the training and test data respectively as comma-separated values. Each row in these files consists of three columns: class index (1 to 4), title, and description. The titles and descriptions are enclosed within double quotes (). Any internal double quote is represented by two consecutive double quotes () while new lines are denoted by a backslash followed with an n character (\n).
  • 项目的.rar
    优质
    这是一个包含各类中文文本分类项目的数据集合压缩文件,适用于训练和测试文本分类模型。 “复旦大学计算机信息与技术国际数据库中心自然语言处理小组”提供了小样本中文文本分类语料,分为训练集和测试集两部分。内容真实有效。
  • 复旦大学的
    优质
    该数据集由复旦大学提供,专注于中文文本分类任务,涵盖多个领域和类别,为研究者提供了丰富的语料资源。 本语料库由复旦大学李荣陆提供。train.zip包含9804篇文档,test.zip包含9832篇文档,都分为20个类别。下载后可以自行重新切分数据或直接使用。请在使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。