
国科大/中科院网络数据挖掘项目,徐君完成的大作业为垃圾短信识别系统设计,采用监督学习和分类方法,包含报告、数据和代码。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
国家建设大学徐君的关于网络数据挖掘的大作业个人报告,包含源代码和数据集,供参考。运行环境配置如下:Python 2.7.12、jieba 0.39、numpy 1.13.3、scikit-learn 0.19.1 和 scipy 1.0.0。请务必参照这些运行环境进行预先配置。首先,运行TextProcess.py脚本以生成classifiedLabel.txt、trainSetMsg.txt 和 testSetMsg.txt 文件,从而获得经过文本处理的规则文本数据。随后,运行crossValidation.py脚本进行交叉验证。需要注意的是,SVM算法的运行时间相对较长,通常需要6到7小时左右;因此,您可以选择注释掉该算法或减小数据集规模以便进行测试。最后,您可以使用分类器中的predict方法来利用训练好的分类器进行垃圾短信识别任务的分类预测。
全部评论 (0)
还没有任何评论哟~


