Advertisement

THUCNews新闻数据集.7z

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
THUCNews新闻数据集.7z包含了一个丰富的中文新闻文章集合,涵盖时政、社会等多个类别,适用于文本挖掘和自然语言处理研究。 THUCNews 数据集是根据新浪新闻 2005 年至 2011 年间的历史数据筛选过滤生成的,包含约74万篇新闻文档,均为 UTF-8 纯文本格式。此数据集在原始新浪新闻分类体系的基础上重新整合划分出包括财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏和娱乐在内的14个候选分类类别。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • THUCNews.7z
    优质
    THUCNews新闻数据集.7z包含了一个丰富的中文新闻文章集合,涵盖时政、社会等多个类别,适用于文本挖掘和自然语言处理研究。 THUCNews 数据集是根据新浪新闻 2005 年至 2011 年间的历史数据筛选过滤生成的,包含约74万篇新闻文档,均为 UTF-8 纯文本格式。此数据集在原始新浪新闻分类体系的基础上重新整合划分出包括财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏和娱乐在内的14个候选分类类别。
  • THUCNews.7z
    优质
    THUCNews新闻数据集.7z包含了清华大学自然语言处理与社会人文计算实验室收集和整理的中文新闻文本数据,适用于各类文本挖掘及机器学习任务。 THUCNews 数据集是根据新浪新闻从2005年到2011年间的历史数据筛选过滤生成的,包含74万篇新闻文档,均为UTF-8纯文本格式。此数据集在原始新浪新闻分类体系的基础上重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏和娱乐。
  • THUCNews文本分类修订版
    优质
    THUCNews新闻文本分类数据集修订版包含大量中国主流媒体的新闻文章,涵盖了时政、财经等十几个类别,旨在为研究者提供一个全面且高质量的数据资源。 包含体育、游戏等10个类别的数据共有60000多条,格式为:标签\t文本语料。
  • THUCNews.zip
    优质
    THUCNews数据集是一份包含中国主流媒体新闻的文章分类数据集合,适用于中文文本分析与机器学习研究。 LSTM/CNN网络实现新闻文本分类的Jupyter源代码可以在下载后直接运行。文件包括词向量表、单词词典以及完整的Jupyter源代码。
  • 基于TensorFlow和CNN的文本分类(使用THUCNews)- 附带资源
    优质
    本项目利用TensorFlow框架与卷积神经网络(CNN)技术对新浪新闻进行自动分类,实验采用THUCNews数据集,并提供相关代码及模型资源。 基于TensorFlow框架及卷积神经网络(CNN)技术,并利用清华数据集THUCNews进行新浪新闻的文本分类研究。该项目旨在通过深度学习方法提升新闻文本自动分类的效果与效率。
  • 20news
    优质
    20news新闻数据集包含来自20个不同主题类别的文档,是文本分类任务中的常用测试平台,广泛应用于自然语言处理研究领域。 20news是一个英文新闻数据集,包含20个类别共20000篇新闻文档,可用于进行文档分类和自然语言处理等任务。
  • NLPCC2016-
    优质
    本数据集为NLPCC2016会议提供的新闻文本集合,旨在支持自然语言处理任务的研究与开发。包含多种类型的中文新闻文章,适用于训练和评估相关算法模型。 NLPCC2016 数据集与流行的新闻数据集不同,它包含更多来自新浪微博的非正式文本。该数据集包括文件 NLPCC2016 新闻数据集_datasets.txt 和 NLPCC2016 新闻数据集_datasets.zip。
  • 类别 -
    优质
    该新闻类别数据集包含了多种类别的新闻文章,旨在为文本分类、自然语言处理等研究提供丰富的训练和测试资源。 该数据集包含大约20万条从HuffPost获取的新闻头条,时间跨度为2012年至2018年。利用这个数据集训练的模型可以用来识别未分类新闻文章的标签或辨别不同新闻文章中使用的语言类型。数据文件名为News_Category_Dataset_v2.json。