
Spark大数据技术及应用-第七章.pptx
5星
- 浏览量: 0
- 大小:None
- 文件类型:PPTX
简介:
本ppt介绍了《Spark大数据技术及应用》一书中的第七章节内容,涵盖了Spark的核心概念、编程模型以及在实际项目中的应用场景和案例分析。
Spark 大数据技术与应用 - 第 7 章
本章主要讲解 Spark 机器学习库(Spark MLlib)的概念、类型、应用场景等相关知识点。
### 机器学习简介
机器学习(Machine Learning,ML)是人工智能的子领域,也是其核心。它是一门多学科交叉的研究领域,涵盖概率论、统计学、逼近论、凸分析以及算法复杂度理论等多个分支。研究计算机如何模拟或实现人类的学习过程以获取新的知识或者技能,并不断优化自身的性能。
### 机器学习分类
机器学习可以分为三大类:监督学习、无监督学习和半监督学习。
#### 监督学习
在给定训练数据集的情况下,通过构建模型对新数据进行预测或分类。根据研究对象的两个(或多)变量之间的依赖关系分析并预测趋势属于**分类**;而依据一组特征值来预测目标数值则为**回归**。
常见的监督学习算法包括:
- KNN (K-Nearest Neighbors)
- 线性回归
- 逻辑回归
- 支持向量机(SVM)
- 决策树和随机森林
#### 无监督学习
在没有训练数据集的情况下,通过构建模型对新数据进行预测或分类。根据相似性和差异性将一组数据分为若干类别称为**聚类**;发现不同部分间的关系及规则则为**关联规则学习**
常见的无监督学习算法包括:
- K均值(K-Means)
- 主成分分析(PCA)
- SVD矩阵分解
- 独立成分分析(ICA)
- 最大期望算法
### Spark MLlib
Spark MLlib 是 Apache Spark 的可扩展机器学习库,包含两个包:`spark.mllib` 和 `spark.ml`。前者基于RDD提供原始的机器学习API;后者则提供了更高级别的DataFrame API用于构建工作流(Pipeline)。
从版本2.0开始,RDD-based API进入维护模式且不再添加新功能,在3.0中将被移除。
ML库是基于DataFrame的API集合,包括三个主要抽象类:Transformer(转换器),Estimator(预测器)和Pipeline(管道)
- 转换器是一种算法可以将一个 DataFrame 变换成另一个 DataFrame;
- 预测器是一个能从 DataFrame 生成转换器的算法。
Spark MLlib 应用场景广泛,涵盖了数据挖掘、自然语言处理及推荐系统等领域。
全部评论 (0)


