
Hadoop部署与论坛日志分析实践.docx
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本文档详细介绍了Hadoop部署的过程及技巧,并结合实例探讨了如何利用Hadoop进行大规模论坛数据的日志分析。
MapReduce处理数据及Hive数据分析需求描述如下:
1. 有两份日志文件:access_2013_05_30.log 和 access_2013_05_31.log,分别记录了2013年5月30日和5月31日的Apache Common访问日志。每行数据由五个部分组成:
- 访问IP地址
- 访问时间(格式为 [日期:时间 + 时区])
- 请求资源路径及HTTP版本号
- 状态码
- 流量大小
例如:27.19.74.143 - - [30/May/2013:17:38:20 +0800] GET /static/image/common/faq.gif HTTP/1.1 200 1127
需求是对黑马技术论坛的Apache Common日志进行分析,计算以下关键指标:
- 每日页面浏览量(PV):所有用户访问页面总数。
- 每日注册用户数:包含“member.php?mod=register”子串的URL数量。
- 每日独立IP数:不同IP地址的数量总和。
- 每日跳出次数:仅浏览一个页面便离开网站的访问次数。
- 每日跳出率:只浏览了一个页面后离开网站的访问次数占总的访问次数的比例。
全部评论 (0)
还没有任何评论哟~


