Advertisement

cnews文本分类数据集(zip文件)。

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
该cnews中文文本分类数据集,是通过对新浪新闻RSS订阅频道在2005年至2011年间积累的历时数据进行精选和筛选而构建的,其中收录了74万篇新闻文档,总计占用2.19 GB存储空间。这些文档均以UTF-8纯文本格式呈现。在此基础上,我们对原始的新浪新闻分类体系进行了重新组织和调整,最终确定并提炼出14个候选的分类类别,具体包括:财经新闻、彩票信息、房地产市场、股票交易、家居生活、教育资讯、科技前沿、社会事件、时尚潮流、时事政治、体育赛事、星座运势、游戏娱乐以及娱乐八卦。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • CNEWS
    优质
    CNEWS中文文本分类数据集是一套包含新闻文章及其对应类别的大型数据集合,旨在促进中文自然语言处理领域的研究与应用。 cnews中文文本分类数据集是由清华大学根据新浪新闻RSS订阅频道2005年至2011年间的历史数据筛选过滤生成的。训练过程的具体细节可以在我的博客中找到。
  • cnews.zip
    优质
    CNews中文数据集包含大量分类新闻文本,适用于进行中文新闻文章的主题分类、文本分析等研究与应用开发。 THUCNews 数据集是基于新浪新闻 RSS 订阅频道在 2005 年至 2011 年间的历史数据筛选过滤生成的,包含约74万篇新闻文档(总计约为2.19GB),所有文档均为UTF-8纯文本格式。在此基础上,我们对原始新浪新闻分类体系进行了重新整合和划分,形成了包括财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏及娱乐在内的共计14个候选分类类别。
  • .zip
    优质
    本资料包包含多种中文文本分类的数据集,适用于训练和测试机器学习模型在自然语言处理任务中的性能。 针对新闻栏目的中文文本分类任务,每个栏目包含5000条新闻:体育、时政、房产、家居、财经、时尚、科技、教育和娱乐。通过对这些新闻内容进行训练,可以构建一个模型来预测每条新闻所属的栏目。
  • 优质
    文本分类数据集是一系列被预先标记好类别的文档集合,用于训练和测试机器学习模型识别新文本的主题或情感等属性。 Spark MLlib实现的中文文本分类使用了Naive Bayes算法。训练模型所需的语料库很重要,在这里我采用的是搜狗提供的早期分类语料库,仅供学习测试之用。
  • CNEWS新闻训练与测试
    优质
    CNEWS数据集是一款专为中文新闻文本设计的分类训练及测试工具,包含大量多标签分类的真实新闻样本。适用于自然语言处理领域的研究和开发工作。 博客文章使用了如下数据: - 训练集文件:cnews.train.txt - 测试集文件:cnew.test.txt - 验证集文件:cnew.val.txt - 词汇表文件:cnews.vocab.txt - 掩码图片(未提供具体链接) - 停用词列表:stopwords.txt
  • ag_news
    优质
    AG News 数据集是一款用于文本分类任务的数据集合,包含大约12万条新闻文章样本,涵盖4个主要类别。 AG News Topic Classification Dataset Version 3, Updated 09/09/2015 ORIGIN: AG is a collection of more than one million news articles gathered from over two thousand sources by ComeToMyHead in more than one year. ComeToMyHead has been an academic news search engine since July 2004. The dataset is provided for research purposes, such as data mining (clustering and classification), information retrieval (ranking and searching), XML processing, data compression, data streaming, and other non-commercial activities. DESCRIPTION: The AGs news topic classification dataset was created by selecting the four largest classes from the original corpus. Each class contains 30,000 training samples and 1,900 testing samples. The total number of training samples is 120,000 and there are a total of 7,600 testing samples. The file classes.txt lists all classes corresponding to each label. Files named train.csv and test.csv contain the training and test data respectively as comma-separated values. Each row in these files consists of three columns: class index (1 to 4), title, and description. The titles and descriptions are enclosed within double quotes (). Any internal double quote is represented by two consecutive double quotes () while new lines are denoted by a backslash followed with an n character (\n).
  • 复旦大学中.zip
    优质
    该数据集为复旦大学提供的中文文本分类资源,包含多个类别、大量标注样本,适用于训练和评估文档自动分类算法。 本语料库由复旦大学李荣陆提供。test_corpus.rar包含9833篇测试文档;train_corpus.rar则有9804篇训练文档,两个语料集各分为20个相同类别。训练数据与测试数据基本按照1:1的比例划分。(使用时请尽量注明资料来源(复旦大学计算机信息与技术系国)。)
  • 新闻
    优质
    这是一个包含各类新闻文章的数据集合,用于训练和测试机器学习模型进行自动化的新闻分类。该数据集包含了丰富的标签类别以及大量的文档内容。 该新闻数据集与一篇关于使用Python进行新闻文本分类的项目相对应,该项目代码详尽,读者可自行实现。
  • CLUE TNEWS
    优质
    CLUE TNEWS是中文文本分类任务的数据集合,包含大量新闻文章标签对,旨在促进自然语言处理领域内的研究和应用。 今日头条中文新闻短文本分类的数据量为:训练集53,360条记录,验证集10,000条记录,测试集10,000条记录。
  • CNN.rar
    优质
    该文件包含了一个用于训练和测试文本分类模型的数据集,主要来源于美国有线电视新闻网(CNN),内容涵盖多个新闻类别。适合进行自然语言处理研究与应用开发。 基于CNN的文本分类代码包利用了卷积神经网络(Convolutional Neural Network, CNN)进行处理。本质上,CNN是一种多层感知机,通过局部连接和共享权值的方式减少了参数的数量,从而使得模型更易于训练,并且可以减轻过拟合现象。 在文本分类领域中,根据论文《Sentence Classification Using Convolutional Neural Networks》中的描述,对于单词的嵌入向量处理有四种方法:1. 使用随机初始化的嵌入并在训练过程中进行更新;2. 使用预训练好的词嵌入,在模型训练时不对其进行参数更新;3. 利用已有的词嵌入,并在模型训练时将其作为可学习参数的一部分来进行更新;4. 将单词同时映射到两个通道中的词向量,其中一个为固定的属性值,另一个则是在训练过程中可以调整的参数。