本课程作业聚焦于半监督支持向量机(SVM)在数据科学中的应用,深入探讨了利用有限标注数据进行高效分类的方法和技巧。
半监督支持向量机(SVM)的数据科学解决方案涉及使用支持向量机作为基础分类器来实现半监督分类器,并且数据集是在代码中随机生成的。
给定条件包括:
- 大量未标记的数据。
- 少量标注数据。
- 人类专家能够以与新标记样本数量成正比的成本正确地为未标记数据集中的任何样本进行标签处理。
目标是降低成本并提高分类器准确性。解决方案通过将具有最高置信度的预测标签添加到已标注的数据集中来实现这一目的,而那些置信度最低的标签则需要人工专家的帮助;这些真实标签会被加入数据集中,并导致成本增加。需要注意的是,人类专家提示的数量不能超过初始标记样本数量的一倍——也就是说,被标记的数据量只能翻一番。
算法在以下情况之一终止:
- 分类器准确率达到100%。
- 成本达到上述限制条件。
- 没有新的未标注数据添加到已标注数据集中。
示例设置如下:
- 数据集包含10,000个样本,属于三个类别,每个类别含有2个特征(信息性);
- 最大迭代次数为100。