
Spark官方中文指南
5星
- 浏览量: 0
- 大小:None
- 文件类型:ZIP
简介:
《Spark官方中文指南》是一本详细介绍Apache Spark大数据处理框架的权威书籍,深入浅出地讲解了Spark的核心概念、API使用及编程技巧。
Apache Spark 是一种专为大规模数据处理而设计的快速通用计算引擎。它由加州大学伯克利分校AMP实验室开发并开源,是一种类似于Hadoop MapReduce的通用并行框架。Spark拥有与MapReduce相同的优点,但在中间输出结果存储方面有所不同:Spark可以将这些结果保存在内存中,从而避免了读写分布式文件系统(如HDFS)的需求。因此,对于需要多次迭代的数据挖掘和机器学习任务来说,Spark表现得更为高效。
作为一种集群计算环境,Spark与Hadoop类似但也有不同之处;这种差异使得Spark在某些工作负载上比Hadoop更优秀。特别地,Spark支持内存分布数据集,并能够优化迭代作业的执行效率以及提供交互式查询功能。
Spark使用Scala语言实现并将其作为应用程序框架的一部分。这使得Scala可以像操作本地集合对象那样方便地处理分布式数据集,从而实现了与Hadoop不同的紧密集成方式。
尽管最初开发Spark是为了支持在大型分布式数据集上的迭代任务,但它实际上是对Hadoop的补充。它可以在Hadoop文件系统上运行,并通过第三方集群框架Mesos来实现这一点。总之,Spark可以用来构建大规模、低延迟的数据分析应用。
全部评论 (0)
还没有任何评论哟~


