
针对不平衡数据的集成特征选择(2011年)
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本文于2011年提出了一种有效的集成特征选择方法,专门用于处理机器学习中的不平衡数据集问题。通过结合多种算法提高模型在少数类样本上的性能和泛化能力。
传统的特征选择方法主要以提高精度为目标,在处理类别分布不平衡的数据集时效果不佳。对于这种数据不均衡的情况,可以采用有放回的抽样方式从数量较多的一类中随机抽取多个样本子集,并确保这些子集中每组样本的数量与另一较小类别中的样本数目相等。然后将每个这样的子集分别和小类别的全部样本结合形成新的训练集合。
接下来,利用集成学习方法对各个新生成的数据集的特征进行评估,并通过投票机制确定最终使用的特征组合:只有那些在超过半数的新数据集中被选为重要特性的项目才会保留下来作为最终结果。实验表明,在UCI提供的不平衡数据集上应用这种方法取得了良好的效果。
全部评论 (0)
还没有任何评论哟~


