
Spark Streaming技术综述:结合Flume、Kafka、HBase和Hadoop...
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本文详细介绍了Spark Streaming技术,并探讨了它与Flume、Kafka、HBase及Hadoop等系统的集成应用,为实时数据处理提供了全面的技术综述。
本项目使用Scala与Java混合编程完成,并且涉及到Python脚本来自动生成日志文件。通过Linux的crontab调度工具定时执行这些脚本以生成实时的日志数据。生成的数据主要模拟某学习网站上视频课程访问量,其中以“/class”开头表示实战课程。
为了实现这一目标,采用流水线Flume和Kafka来收集实时日志,并使用Spark Streaming进行处理后存储在HBase中供后续分析使用。
所用的软件工具及环境配置如下:
- Hadoop版本:hadoop-2.6.0-cdh5.7.0
- HBase版本:hbase-1.2.0-cdh5.7.0
- Zookeeper版本:zookeeper-3.4.5-cdh5.7.0
- Spark版本: spark-2.2.0-bin-hadoop2.6
全部评论 (0)
还没有任何评论哟~


