
Hadoop原理及技术、Spark操作实验
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本课程深入解析Hadoop分布式处理架构的核心原理与技术,并通过实际操作练习掌握Spark大数据处理框架的应用技巧。
一、实验目的
1. 理解Spark编程思想。
2. 学会在Spark Shell中编写Scala程序。
3. 学会在Spark Shell中运行Scala程序。
二、实验环境
Windows 10
VMware Workstation Pro虚拟机
Hadoop环境
Jdk1.8
三、实验内容
(一)Spark基础知识
1. 输入start-all.sh启动hadoop进程及相关端口号。
2. 启动Spark分布式集群并查看信息。
3. 在网页端查看集群信息。
4. 启动spark-shell控制台,包括:
1) local模式启动;
2) 登录master服务器,在集群模式下启动。
5. 访问http://localhost:4040可以看到Spark Web界面。
6. 从本地文件系统中加载数据。
7. 从分布式文件系统HDFS中加载数据。
8. 调用SparkContext的parallelize方法,利用Driver中的已存在数组创建RDD。
(二)运行WordCount程序
1. 使用Scala编写WordCount应用程序。
2. 在spark-shell环境中执行编写的WordCount程序。
全部评论 (0)
还没有任何评论哟~


