
基于Spark的并行密度峰值聚类算法
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本研究提出了一种基于Apache Spark的大数据环境下的高效并行化密度峰值聚类算法。通过优化计算流程,实现了大规模数据集上的快速、准确聚类分析,提高了处理效率和性能表现。
针对FSDP聚类算法在计算数据对象的局部密度与最小距离时因需要遍历整个数据集而导致时间复杂度较高的问题,提出了一种基于Spark的并行FSDP聚类算法SFSDP。该方法首先通过空间网格划分将待处理的数据集分割成多个大小相对均衡的数据分区;接着利用改进后的FSDP聚类算法对各分区内的数据进行并行聚类分析;最后合并各个分区生成全局簇集。实验结果表明,与原FSDP算法相比,SFSDP在大规模数据集中具有更高的效率,并且在准确性和扩展性方面表现优异。
全部评论 (0)
还没有任何评论哟~


