
WordCount:基于Hadoop的词频统计源代码
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
WordCount是一款运行于Hadoop平台上的开源程序,用于高效地进行大规模文本数据集中的词汇频率统计。
Hadoop的词频统计源代码WordCount展示了如何使用MapReduce框架进行基本的数据处理任务。在这个例子中,程序会读取输入文件中的每一行,并将每个单词映射到其出现次数上,然后通过归约步骤计算出整个数据集中每个单词的确切频率。这是学习Hadoop和MapReduce的一个很好的起点。
全部评论 (0)
还没有任何评论哟~


