
Hadoop数据挖掘算法的研究与应用。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
随着移动智能操作系统技术的显著进步,以及智能手机的广泛应用和移动互联网时代的迅速发展,web应用程序的生成量持续攀升,每天产生TB乃至PB级别的大量web日志数据。因此,如何从这些庞大的日志信息中有效提取用户的个人偏好及其他相关信息,从而为用户提供定制化的推荐服务,并最终为人们的生活带来便利,已成为各大互联网公司和科研机构研究人员关注的重点课题。得益于开源云计算平台Hadoop的出现,海量web日志信息的数据挖掘变得切实可行。本文的研究重点集中在以下几个关键领域:首先,我们将对Hadoop云计算平台进行深入研究。Hadoop作为Apache基金会下的一个顶级开源项目,能够充分利用成千上万台廉价计算机提供的并行计算与存储服务。本文将着重探讨Hadoop平台下HDFS分布式文件系统、并行编程模型MapReduce以及分布式列型存储数据库HBase等核心技术。其次,我们将对聚类分析进行系统性的研究。聚类分析作为数据挖掘领域应用最为广泛的一种方法论,本文将阐述其起源、定义以及样本相似性距离的衡量标准,并详细介绍常用的聚类分析算法和方法。第三,我们设计并实现了基于Hadoop平台的完整数据挖掘系统。该系统巧妙地封装了底层Hadoop系统的接口,并提供了本文中所介绍的多种聚类算法服务。系统的逻辑架构自顶向下构建了用户层、服务引擎层、挖掘引擎层以及底层Hadoop驱动层等多个层次。最后, 我们将对K-Means和PAM聚类算法进行深入分析与研究.
全部评论 (0)
还没有任何评论哟~


