
带有标签的中文短信数据集
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
这是一个包含各类标签的中文短信数据集合,旨在支持垃圾短信识别等相关自然语言处理任务的研究与应用。
本数据集可用于进行文本分类与信息检索的自然语言处理实验,共包含80万条短信。其中:原始数据集data.txt每行为1条短信,格式为“标签\t短信内容”,标签=0表示正常短信,标签=1表示垃圾短信。train.csv和test.csv是拆分后的训练集与测试集,拆分代码位于train_test_split.py文件中。stopwords.txt包含使用的停用词列表。有关基于该数据集的文本分类的具体方法,请参阅相关文章;关于信息检索的相关内容也有详细说明。
示例如下:
0 商业秘密的秘密性是其商业价值和垄断地位的重要前提条件之一。
1 《依林美容》三八节特惠活动正在进行中!超值套餐等你来拿,详情请咨询店内工作人员。
全部评论 (0)
还没有任何评论哟~


