
Spark 20 新闻组数据集上的朴素贝叶斯与 TF-IDF 源码实现
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本项目提供在Spark 20新闻组数据集中应用TF-IDF和朴素贝叶斯分类算法的源代码,旨在展示文本处理及机器学习模型的实际操作。
为了使用 Apache Spark 和斯坦福 NLP 工具实现 TF-IDF 加朴素贝叶斯分类器,请按照以下步骤操作:
1. 克隆代码仓库并进入其中。
2. 运行 `sbt assembly` 命令来构建一个包含所有依赖的单个 jar 文件(称为 uber jar)。
3. 在命令行中,从 repo 的根目录运行:
```
spark-submit --class com.brokendata.NaiveBayesSpark target/scala-2.10/spark20newsgroup-assembly-1.0.jar
```
确保已安装 Apache Spark 并将其添加到您的 $PATH 中。您可能还需要创建一个名为 `$SPARK_HOME/conf/spark-defaults.conf` 的配置文件,并加入以下内容:
```
spark.executor.memory 3g
spark.driver.memory 4g
```
全部评论 (0)
还没有任何评论哟~


