
Spark Streaming与HBase集成:存储来自Kafka的数据
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本文介绍了如何将Apache Spark Streaming与HBase结合使用,实现高效地从Kafka实时接收数据并将其存储到HBase中。
SparkStreaming_HBase将从Kafka收集的数据保存到HBase中,数据来源为日志生成器。
编写一个Python工程用于产生行为日志:每次运行会生成设定数量的日志记录,并通过Linux定时器每60秒执行一次,产生的行为日志会被保存在文件里。使用Flume来收集新产生的行为日志,再利用Kafka进行数据的收集和存储;然后用SparkStreaming实时处理这些数据,最后将结果写入HBase中。
数据格式如下:
```
63.132.29.46 2019-10-15 00:36:16 GET /class/131.html HTTP/1.1 404 -
46.98.10.132 2019-10-15 00:36:16 GET /class/112.html HTTP/1.1 200 -
46.29.167.10 2019-10-15
```
全部评论 (0)
还没有任何评论哟~


