
关于聚类方法在垃圾邮件识别中的应用研究
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本研究探讨了多种聚类方法在垃圾邮件识别领域的应用效果,分析其优势与局限性,并提出改进策略以提高分类准确性。
随着垃圾邮件数量的增加,如何有效识别垃圾邮件变得非常重要。为了克服k最近邻(k-nea-rest neighbor,kNN)分类法在垃圾邮件识别中的不足,本段落提出了一种基于聚类算法改进的kNN方法。首先,使用最小距离原则的一趟聚类算法将训练集划分成大小相近的超球体,每个超球体内包含一个或多个类别;其次,通过投票机制确定簇标识,即以簇中最多文本所属类别作为该簇的代表类别,并以此构建识别模型;最后,在输入邮件时应用最近邻分类思想进行自动识别。实验结果显示,此方法能够显著减少相似度计算量,并且在与TiMBL、Nave Bayesian和Stacking等算法比较下表现更优。此外,这种方法还支持对识别模型的增量更新,因此具备较高的实用性。
全部评论 (0)
还没有任何评论哟~


