本书详细介绍了在Spark环境下进行电商项目的用户行为数据分析与大数据平台搭建的技术和方法。适合数据分析师及工程师阅读学习。
该课程包含上百节详细讲解的视频课件,在百度网盘上可以永久下载使用。
本套课程主要介绍一个真实且复杂的大型企业级大数据项目,并通过实战让学员掌握Spark技术,帮助他们积累实际经验,进入高级开发行列。
1. 课程中全面覆盖了Spark Core、Spark SQL和Spark Streaming这三个框架的技术点及知识点。学员将学会如何在真实的业务场景下应用这些知识。
2. 四个功能模块均来自企业级项目,并进行了优化整合。这四个复杂的真实需求可以帮助学员增加实际的企业级项目的实战经验,远超市面上的初级大数据项目所能提供的学习体验。
3. 课程中还包含了大量的性能调优技术、故障解决方法以及数据倾斜处理方案等高级内容的学习和讲解。
4. 整个教学过程模拟了企业级别的开发场景,在需求分析、设计、实现等多个环节进行详细解析。
模块介绍:
1. 用户访问session的统计与分析:该功能块主要使用Spark Core来计算用户会话的各种聚合指标,抽取随机样本,并找出热门品类和高点击量的会话。
2. 页面单跳转化率统计:此部分涉及页面切片算法及匹配方案的设计。通过这些技术手段可以帮助产品经理优化网页布局。
3. 热门商品离线统计:使用Spark SQL每天为每个区域选出最畅销的商品,然后利用Oozie和Zeppelin进行数据调度与可视化展示。
4. 广告流量实时统计:该模块负责跟踪广告的展现量及点击率,并且实现了动态黑名单机制来过滤不良行为。它还能提供滑动窗口内的城市级别以及地区级别的统计数据。
通过以上内容的学习,学员将能够掌握从需求分析到性能调优等各个环节的企业级大数据项目开发流程和技巧。