
蘑菇分类问题在LeetCode和Kaggle上进行,利用Spark Mllib实现。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
通过颜色分类、在LeetCode、Kaggle以及蘑菇分类挑战赛中应用Spark Mllib,我们完成了这项任务。为了Spark 2,需要配置环境变量。当Spark 1和Spark 2都安装在同一台机器上时,系统默认会使用Spark 1。为了确保使用Spark 2,您需要在运行pyspark或spark-submit之前,执行以下命令来明确指定:`$exportSPARK_MAJOR_VERSION=2`。随后,我利用pyspark提供的模块来完成此任务,具体包括:`from pyspark import SparkContext, SparkSession` 以及 `from pyspark.sql import SparkSession, Row`。此外,我还导入了 `from pyspark.ml.feature import VectorAssembler, StringIndexer, OneHotEncoder` 和 `from pyspark.ml import Pipeline` 以及 `from pyspark.ml.classification import RandomForestClassifier`。最后,我设置了SparkContext和Spark Session。
全部评论 (0)
还没有任何评论哟~


