
Gap Statistic: 动态获取数据中的最优聚类数目,用于无监督学习
5星
- 浏览量: 0
- 大小:None
- 文件类型:ZIP
简介:
简介:Gap统计是一种评估方法,通过对比实际数据与随机生成数据的聚类结果,确定无监督学习中数据的最佳分组数量,帮助优化聚类分析。
Python实现
目的:使用Gap统计量动态识别数据集中建议的聚类数量。
在笔记本上使用完整的例子:
安装方式包括:
- 使用出血边缘:`pip install git+git:github.com/milesgranger/gap_statistic.git`
- PyPi:`pip install --upgrade gap-stat`
- 使用Rust扩展名:`pip install --upgrade gap-stat[rust]`
卸载方法为:`pip uninstall gap-stat`
方法:
该程序包提供了几种根据Tibshirani等人介绍的Gap统计量来选择给定数据集的最佳聚类数的方法。所实现的方法可以使用一系列提供的k值对给定的数据集进行聚类,并为您提供统计信息,以帮助您确定正确的聚类数量。三种可能的选择方法为:
- 选取使Gap值最大的k。
- 选取最小的k,使得`Gap(k) >= Gap(k + 1) - s(k + 1)`。这是Tibshirani等人推荐的方法。
以上描述中没有包含联系方式和网址信息,在重写时未做相应修改或标注。
全部评论 (0)
还没有任何评论哟~


