
2016年中文新闻文本.txt
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
该文档为2016年的中文新闻文本集合,涵盖了当年的重要事件、社会热点及各类新闻报道,是研究和了解2016年中国社会发展状况的一手资料。
该数据集包含了250万篇新闻文章,涵盖了6.3万个媒体来源的信息,包括标题、关键词、描述以及正文内容。经过去重处理后,整个数据集被划分为三个部分:训练集包含243万篇文章;验证集为7.7万篇文章;测试集的数量未具体给出且不提供下载服务。
该数据集可以用于多种用途:
- 作为通用中文语料库,可用于训练词向量模型或进行预训练;
- 可以用来开发标题生成模型;
- 同样适用于关键词生成模型的训练(注意选取不含在标题中的关键词内容);
- 还可以根据新闻渠道信息来区分不同类型的信息。
全部评论 (0)
还没有任何评论哟~


