
来自GitHub的MCFS特征选择算法
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
MCFS是一种源自GitHub的高效特征选择算法,专门针对大规模机器学习数据集设计,能显著提升模型性能和计算效率。
在许多数据分析任务中,经常会遇到非常高维度的数据集。特征选择技术旨在从原始特征集中找到相关的子集,从而促进聚类、分类和检索操作的进行。特征选择问题本质上是一个组合优化问题,并且计算成本较高。传统的方法通过基于每个单独特征的某些评分来选取排名靠前的若干个特征来解决这个问题。这些方法忽略了不同特征之间的可能相关性,因此无法产生最优的特征子集。
受到最近关于流形学习和L1-正则化模型在子集选择方面的发展启发,我们提出了一种新的方法——多簇/类特征选择(MCFS),用于进行特征选择。具体来说,在这种新方法中,我们将选取那些能够最好地保留数据的多簇/类结构的特征。
相应的优化问题可以通过稀疏特征值问题和L1-正则化最小二乘法高效解决。值得注意的是,MCFS可以应用于监督、非监督以及半监督的情况。
如果发现这些算法有用,请引用以下文献:
Deng Cai, Chiyuan Zhang, Xiaofei He,无监督多簇数据特征选择, 第十六届ACM SIGKDD知识发现与数据挖掘会议(KDD10),2010年7月。
Xiaofei He, Deng Cai和Partha Niyogi,Laplacian Score用于特征选择”,神经信息处理系统进展第18卷(NIPS05),加拿大温哥华,2005。
全部评论 (0)
还没有任何评论哟~


