
Hadoop倒排索引的实现与完整代码报告
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本报告详细探讨了Hadoop环境下高效构建倒排索引的方法,并提供了完整的编码示例和相关技术细节。
Map 和 Reduce 的设计思路(包含 Map、Reduce 阶段的 K、V 类型)的基本要求与排序因两者代码具有关联性而放在一起讨论。
首先,在基本要求中,对于输入文件中的每一句进行切割,将单词和文件名作为 key,并且对每个词设置词频 1。接下来在 combiner 中,统计每个单词的 value 并加起来为 sum,并把原来 key 中的文件名剥离出来与 sum 合并为新的 value(text),同时把单词设为 key(text)。最后,在 reduce 阶段中,对每个词的 value 使用“:”和“.”进行分割,抽取每个文件中的出现次数,统计出现的文件个数,并计算出词频加入到 value 的前面作为新的 value。key 保持不变并将结果输入临时文件。
新建一个排序 job 将临时文件作为输入,在其 map 中将每一行切割后,把词频设为 key(double),其他信息作为 value(包含文件名等)。此外重载 DoubleWritableDecreasingComparator 类进行从小到大排序之后输出。
全部评论 (0)
还没有任何评论哟~


