
中文文本分类,针对新闻语料库。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
构建用于特定于设定的中文新闻文本分类的语料库,该语料库的素材来源于搜狗新闻以及清华大学新闻语料,总共包含八个类别。每个类别都已分别准备了4000条用于训练的样本数据,以及1000条用于测试的样本数据。此外,还提供了包含在哈尔滨工业大学停用词列表和川剧院停用词列表的综合性停用词表。
全部评论 (0)
还没有任何评论哟~


简介:
构建用于特定于设定的中文新闻文本分类的语料库,该语料库的素材来源于搜狗新闻以及清华大学新闻语料,总共包含八个类别。每个类别都已分别准备了4000条用于训练的样本数据,以及1000条用于测试的样本数据。此外,还提供了包含在哈尔滨工业大学停用词列表和川剧院停用词列表的综合性停用词表。


