今日头条中文新闻文本分类数据集包含大量中文新闻文章,涵盖了多个类别,旨在促进自然语言处理中的话题分类研究与应用。
中文文本分类数据集的数据来源是今日头条客户端。数据格式为:每行代表一条独立的新闻记录,并通过_!_进行字段分割。
- 第一个字段表示新闻ID。
- 第二个字段表示分类代码,如102对应娱乐类别的code。
- 第三个字段表示该条目所属的具体类别名称,例如news_entertainment。
- 最后是具体的新闻标题内容和相关关键词列表。
具体示例:
6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言,之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们
分类code与名称对应关系如下:
- 100 民生 故事 news_story
- 101 文化 文化 news_culture
- 102 娱乐 娱乐 news_entertainment
- 103 体育 体育 news_sports
- 104 财经 财经 news_finance
- 106 房产 房产 news_house
- 107 汽车 汽车 news_car
- 108 教育 教育 news_edu
- 109 科技 (原文中未完整列出,此处仅提供示例)