
THUCNews新闻数据集.7z
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
THUCNews新闻数据集.7z包含了一个丰富的中文新闻文章集合,涵盖时政、社会等多个类别,适用于文本挖掘和自然语言处理研究。
THUCNews 数据集是根据新浪新闻 2005 年至 2011 年间的历史数据筛选过滤生成的,包含约74万篇新闻文档,均为 UTF-8 纯文本格式。此数据集在原始新浪新闻分类体系的基础上重新整合划分出包括财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏和娱乐在内的14个候选分类类别。
全部评论 (0)
还没有任何评论哟~


