
spark-2.4.0-bin-hadoop2.7.tgz.zip文件
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
spark-2.4.0-bin-hadoop2.7.tgz.zip 是一个压缩包,内含 Apache Spark 2.4.0 的二进制版本,兼容 Hadoop 2.7 版本的生态系统工具和数据处理框架。
Apache Spark是一个开源的集群计算框架,最初由加州大学伯克利分校的AMPLab开发。与Hadoop的MapReduce将中间数据存储在磁盘上的做法不同,Spark采用内存计算技术,在数据尚未写入硬盘之前便能在内存中进行分析和运算。这使得Spark在内存中的运行速度比Hadoop MapReduce快100倍;即使是在硬盘上执行程序时,Spark的速度也更快,能提升10倍的效率。此外,Spark支持用户将数据加载到集群的内存中,并对其多次查询,非常适合用于机器学习算法的应用场景。
全部评论 (0)
还没有任何评论哟~


