
BayesSpam采用Python实现了一种简化的基于贝叶斯的垃圾邮件分类方法。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
BayesSpampython提供了一种简化的垃圾邮件分类方法,该方法基于贝叶斯定理,在包含400封邮件(正常邮件和垃圾邮件各200封)的测试集中展现出卓越的性能,其分类准确率达到95.15%。值得注意的是,即使仅通过统计词频来计算概率,该分类器的结果仍然相当令人满意。首先,需要搭建Python 3.4开发环境;其次,需要安装结巴分词工具。接下来,我们将运用贝叶斯公式来计算在已知词向量$w=(w_1,w_2,...,w_n)$的情况下,邮件包含该词向量的概率并判断其是否为垃圾邮件,具体而言,我们需要求:$P(s|w)$, 其中$w=(w_1,w_2,...,w_n)$表示词向量,$s$表示邮件被归类为垃圾邮件。根据贝叶斯公式和全概率公式:$P(s|w_1,w_2,...,w_n)$=$\frac {P(s,w_1,w_2,...,w_n)}{P(w_1,w_2,...,w_n)}$=$\frac {P(w_1,w_2,...,w_n|s)P(s)}{P(w_1,w_2,...,w_n)}$.
全部评论 (0)
还没有任何评论哟~


