Advertisement

THUCNews数据集.zip

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
THUCNews数据集是一份包含中国主流媒体新闻的文章分类数据集合,适用于中文文本分析与机器学习研究。 LSTM/CNN网络实现新闻文本分类的Jupyter源代码可以在下载后直接运行。文件包括词向量表、单词词典以及完整的Jupyter源代码。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • THUCNews.zip
    优质
    THUCNews数据集是一份包含中国主流媒体新闻的文章分类数据集合,适用于中文文本分析与机器学习研究。 LSTM/CNN网络实现新闻文本分类的Jupyter源代码可以在下载后直接运行。文件包括词向量表、单词词典以及完整的Jupyter源代码。
  • THUCNews新闻.7z
    优质
    THUCNews新闻数据集.7z包含了一个丰富的中文新闻文章集合,涵盖时政、社会等多个类别,适用于文本挖掘和自然语言处理研究。 THUCNews 数据集是根据新浪新闻 2005 年至 2011 年间的历史数据筛选过滤生成的,包含约74万篇新闻文档,均为 UTF-8 纯文本格式。此数据集在原始新浪新闻分类体系的基础上重新整合划分出包括财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏和娱乐在内的14个候选分类类别。
  • THUCNews新闻.7z
    优质
    THUCNews新闻数据集.7z包含了清华大学自然语言处理与社会人文计算实验室收集和整理的中文新闻文本数据,适用于各类文本挖掘及机器学习任务。 THUCNews 数据集是根据新浪新闻从2005年到2011年间的历史数据筛选过滤生成的,包含74万篇新闻文档,均为UTF-8纯文本格式。此数据集在原始新浪新闻分类体系的基础上重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏和娱乐。
  • THUCNews新闻文本分类修订版
    优质
    THUCNews新闻文本分类数据集修订版包含大量中国主流媒体的新闻文章,涵盖了时政、财经等十几个类别,旨在为研究者提供一个全面且高质量的数据资源。 包含体育、游戏等10个类别的数据共有60000多条,格式为:标签\t文本语料。
  • Python使用BERT对THUCnews做文本分类的源码及文本.zip
    优质
    本资源提供利用Python结合BERT模型进行中文新闻文章分类的代码和THUCNews数据集。适用于自然语言处理相关研究与实践,助力初学者快速上手文本分类项目。 【资源说明】Python基于bert对thuc新闻数据集进行文本分类源码+文本数据.zip 1. 本资源中的所有项目代码都经过测试,并确保运行成功且功能正常,可以放心下载使用。 2. 此项目适用于计算机相关专业的在校学生、教师或企业员工,也适合初学者学习进阶。此外,它还可以作为毕业设计项目、课程作业或者初期立项演示等用途。 3. 如果有一定基础的话,在此基础上进行修改以实现其他功能是完全可行的。
  • .zip
    优质
    《数据集.zip》包含了一系列结构化的数据文件和文档,适用于机器学习、数据分析等场景。该压缩包内含各类格式的数据及使用说明。 中文电影评论情感分析数据集的使用方法可以参考相关文章中的详细介绍。
  • .zip
    优质
    《数据集.zip》包含了各类研究和应用所需的数据文件集合,涵盖科学、工程及社会科学等多个领域,为数据分析与机器学习提供支持。 百度的“深度学习”训练营提供了“手势识别”项目的数据集,内包含数千张0-9的手势照片。
  • .zip
    优质
    《数据集.zip》包含了一系列结构化和非结构化的数据文件,适用于机器学习模型训练与测试。内含多样分类及标签,便于科研人员进行数据分析与挖掘工作。 现在将博客中的数据集代码上传。