本作业为《Java大数据》课程第五部分,主要探讨并实践MapReduce编程模型及其在数据挖掘中的应用,通过实例分析提升学生的大数据分析能力。
课后作业
1. 请从日志文件中提取访问者的IP地址、访问时间、来源地址以及访问的URL。
示例日志内容:
```
192.168.170.111—[20/Jan/2014:16:35:27 +0800] “GET /examples/servlets/images/code.gif HTTP/1.1” 200 292 “http://192.168.170.152/examples/servlets/” “Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36” “-”
```
2. 描述迭代式和组合式的作业执行方法。
3. 请说明HBASE的Map、Reduce继承类以及序列化类是什么?
4. 简述如何配置容量调度器(Capacity Scheduler)。
5. 概要描述mapreduce的工作流程。
6. 使用二次排序算法对以下输入数据进行处理,并得到如下结果:
输入数据:
```
1 2
2 3
2 1
4 6
3 1
3 8
3 2
```
请简述处理过程。