
基于Hadoop和Spark的Scala实现新闻聚类与分类
5星
- 浏览量: 0
- 大小:None
- 文件类型:ZIP
简介:
本项目利用Scala语言,在Hadoop和Spark平台上开发了高效的新闻聚类与分类系统,旨在提升大规模数据处理能力及分析精准度。
本资源为燕山大学大数据三级项目,包括项目报告(英文版)和源码(可直接在虚拟机上运行),实现了新闻聚类和新闻分类。利用了Hadoop、Spark和Scala技术。
参考文件中包含如何在虚拟机上将Scala文件提交到Spark中的方法说明。源代码test.scala实现了新闻聚类,包括分词处理(需要安装两个jar包)、特征提取以及使用K-means算法进行聚类分析。output.libsvm是老师提供的数据集的特征提取结果,该文件格式符合libsvm标准,可以直接用于分类任务。
项目中还包含了两种分类方法:朴素贝叶斯和逻辑回归。其中,朴素贝叶斯模型的准确率较高,而逻辑回归模型的准确率较低。具体的代码实现方面,navie为朴素贝叶斯源码,classify则是逻辑回归源码。
全部评论 (0)
还没有任何评论哟~


