
Spark-2.3.1的源代码分析。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
Spark 2.3.1 源码解析:本文将深入探讨 Spark Core 的源码阅读,重点关注 Spark Context 中的关键机制,包括缓存策略、变量管理以及 shuffle 数据等清理和优化方法。此外,还将对 Spark-submit 的参数配置和部署模式进行详细分析。
同时,我们将对比 GroupByKey 和 ReduceByKey 两种分布式键值对处理函数,并阐述 OrderedRDD 函数的相关内容。更进一步,我们将重点介绍如何高效地利用 mappartitions 和 standalone 模式下的 executor 调度策略。
此外,本文还将深入研究 Spark SQL 的源码阅读,涵盖 Hive on Spark 的调优方法以及多维聚合分析应用的实际案例。同时,我们将解读 Spark Streaming 的源码,包括动态分区发现、新增 Dstream 的 join 操作(无论是 RDD join 还是 Dstream join)的区别。
最后,我们将通过 PIDController 的源码赏析以及 back pressure 实现思路来理解 Streaming Context 的核心要点,并着重强调 checkpoint 的重要性及其相关知识。
全部评论 (0)
还没有任何评论哟~


