本项目采用MATLAB编写SVM算法代码,旨在精确区分电子邮件为垃圾邮件或非垃圾邮件,包含详细的精度检验过程。
该项目旨在通过MATLAB代码将邮件分类为垃圾邮件或非垃圾邮件,并使用了支持向量机(SVM)进行分类任务。项目采用了cvx和libSVM软件包,这两个工具是存储库的一部分。
该程序在MATLAB中编写并包含两个内核的脚本:线性内核与高斯内核。数据集取自2005年TREC公共垃圾邮件语料库的一个子集,并分为训练集和测试集两部分。每个文件中的每一行代表一封电子邮件,格式为由空格分隔的属性列表;第一行为邮件ID,第二行为是否是垃圾邮件(1表示是,0表示否),其余部分列出单词及其在该封邮件中出现的数量。
提供的数据经过处理:移除了非文字字符,并执行了一些基础的功能选择。要使用该项目,请首先运行`transform_data.py`脚本以解析原始的数据集并生成两个文件——一个包含特征信息的文件和另一个用于分类结果的文件。接下来,需将cvx设置为MATLAB或Octave环境,按照cvx软件包中的说明进行配置。
最后,在完成上述步骤后,通过运行相关脚本来获取模型准确性的输出结果。如果需要的话,可以通过修改python脚本向数据集添加新的邮件样本以进一步测试分类器的性能。