Spark-Apriori 利用 Spark 算法。

5星

浏览量: 0

大小:None

文件类型：None

简介：
火花先验采用 Spark 强大的 Apriori 算法进行关联规则挖掘。此算法不再进行后续的关联规则构建。使用方法涉及向系统输入最大支持度阈值，并指定输出分区以及 Spark 提交参数。具体而言，使用 `spark-submit` 命令执行类 `com.jgalilee.spark.apriori.JobDriver`，指定本地环境运行 `./target/scala-2.10/spark-apriori_2.10-1.0.jar` 文件，并提供输入交易文件路径 `input/transactions.txt`、最大迭代次数 `10`、最小支持度阈值 `3` 以及输出路径 `output`。此外，`-3input` 参数定义了输入交易数据的路径，`-max` 指定了最大迭代次数，`-minsup` 定义了作为频繁项集考虑的最小支持度，而 `-output` 则表明为每个迭代步骤写入输出路径，即 `output/n`，该路径用于存储迭代 n 的数据集分区。假设输入数据已被预处理。

全部评论 (0)

还没有任何评论哟~

客服

Spark-Apriori：基于 Spark 的 Apriori 算法实现

优质

Spark-Apriori是一款利用Apache Spark高效处理大数据集的Apriori算法实现。该工具旨在发掘大规模数据中的频繁项集和关联规则，为市场篮分析提供强大支持。火花先验使用 Spark 的蛮力 Apriori 算法实现，并且该算法不会继续生成关联规则。用法如下：输入参数包括最大迭代次数、最小支持度和分区数量。命令行示例： ``` spark-submit \ --class com.jgalilee.spark.apriori.JobDriver \ --master local[4] \ ./target/scala-2.10/spark-apriori_2.10-1.0.jar \ input/transactions.txt \ 10 \ 3 \ output \ 3 ``` 参数说明： - `input` - 输入交易数据的路径。 - `max` - 要运行的最大迭代次数。 - `minsup` - 作为频繁项集候选项的标准最小支持度阈值。 - `output` - 输出结果存放的位置，即输出目录为 output/n - `partitions` - 用于事务数据集划分的分区数量。

TF-IDF-Spark-示例：利用Spark和Scala实现的样本TF-IDF算法

优质

本项目通过Scala在Spark平台上实现了高效的TF-IDF算法计算，适用于大规模文本数据处理。展示了如何利用分布式系统进行复杂文本分析任务。这段文字描述了几个与自然语言处理相关的示例代码或项目：一个是LDA（潜在狄利克雷分配）的Scala版本，该版本是从Databricks的一个示例中克隆出来的；另一个是使用Spark和Scala实现的TF-IDF算法样本。这些资源旨在帮助用户理解和应用文本挖掘中的关键技术。

Spark与Docker Swarm结合：利用Docker Swarm部署Apache Spark

优质

本文介绍如何将Apache Spark与Docker Swarm相结合，并详细阐述了使用Docker Swarm部署Apache Spark集群的方法和优势。要在DigitalOcean上使用Docker Swarm运行Spark，请按照以下步骤操作： 1. 学习如何构建它。 2. 如果想要使用该项目，首先从Digital Ocean获取访问令牌，并将其添加到您的环境中： ``` $ export DIGITAL_OCEAN_ACCESS_TOKEN=[your_token] ``` 3. 启动三个Droplet并部署Docker Swarm： ``` $ sh scripts/create.sh ``` 4. 运行脚本： ``` $ sh scripts/run.sh ``` 5. 若要减少资源，可以运行以下命令： ``` $ sh scripts/destroy.sh ```

利用Spark从HBase读取数据并用Spark SQL保存至MySQL

优质

本项目演示了如何使用Apache Spark从HBase数据库高效地读取大量数据，并通过Spark SQL处理后将结果存储到MySQL中，实现大数据分析流程。使用Spark从HBase读取数据，并将其插入到MySQL中。

利用IDEA执行Spark程序

优质

本简介介绍如何通过集成开发环境（IDE）使用Apache Spark进行编程和调试，并详细讲解了在IDE中运行Spark应用程序的具体步骤。使用IDEA运行Spark程序对于初学者来说是一个不错的选择，自己搭建环境并成功编写程序可以为学习打下坚实的基础。

Spark-Excel：利用Apache POI读取Excel文件的Spark扩展插件

优质

Spark-Excel是一款基于Apache POI开发的Spark插件，专门用于在大数据处理中高效读取和分析Excel文件，简化数据导入流程。 spark-excel：这是一个用于通过Apache POI读取Excel文件的Spark插件。

spark-distributed-louvain-modularity:基于Spark的分布式Louvain模块化算法...

优质

spark-distributed-louvain-modularity 是一个利用Apache Spark实现的大规模图数据社区发现工具，采用高效的Louvain模块化算法进行分布式计算。 dga-graphX 是一个软件包，它使用GraphX框架在Spark平台上构建了几种预构建的可执行图算法。前提条件： - Spark 0.9.0 或更高版本 - GraphX 如果需要，请编辑build.gradle文件以设置您的Spark和GraphX版本。通过运行 `gradle clean dist` 来生成dga-graphx软件包，可以在build/dist文件夹中找到dga-graphx-0.1.jar。算法：鲁汶分布式社区检测是Fast unfolding of communities in large networks这篇文章的并行实现：Vincent D Blondel, Jean-Loup Guillaume, Renaud Lambiotte, Etienne Lefebvre。

Spark-Solr: 利用SolrJ将数据从Solr读入Spark RDD并从Spark向Solr索引对象的工具

优质

Spark-Solr是一个高效的工具，它使用SolrJ库实现数据在Apache Solr与Spark RDD之间的双向传输，支持大规模数据分析和处理。 Lucidworks Spark与Solr的集成项目包括用于从Solr读取数据并将其作为Spark DataFrame或RDD使用的工具，以及使用SolrJ将对象索引到Solr中的工具。例如，可以索引和查询Twitter的数据，也可以对纽约市黄色出租车CSV数据进行同样的操作。在配置和调优方面，可以通过设置如max_rows request_handler等参数来优化查询性能；通过使用分片内拆分提高读取并行度的分裂(split_field)、splits_per_shard 和 flatten_multivalued 参数；以及跳过非文档值(skip_non_dv)功能。此外，还可以利用样本种子(sample_seed)和百分比(sample_pct)参数来控制数据抽样。在查询时间方面，可以配置软提交间隔(soft_commit_secs)，设定批处理大小(batch_size)，生成唯一键(gen_uniq_key)以及指定Solr字段类型(solr_field_types)等。

Spark TPC-DS性能测试：利用TPC-DS基准评估Spark SQL性能

优质

本研究通过TPC-DS基准测试深入分析和评估了Spark SQL的性能表现，为大数据处理提供了有价值的参考。 spark-tpc-ds-performance-test：使用TPC-DS基准测试Spark SQL性能。

Spark Python KNN：在Apache Spark中计算K-NN的函数

优质

本文章介绍了如何使用Python在Apache Spark平台上实现K-Nearest Neighbors (K-NN)算法，并提供了详细的函数说明和示例代码，帮助用户高效地处理大规模数据集。 Spark Python K-nn 提供了一个简单且存储效率高的函数来计算K个最近的邻居。此功能需要安装Numpy 和 scikit-learn 库，并将 jakac:spark-python-knn:0.0.3 添加到您的应用程序要求中。使用方法如下： ```python from gaussalgo.knn import compute_neighbors import numpy as np left = sc.parallelize([ (1, np.array([0,0,1,1])), (2, np.array([0,1,1,1])), (3, np.array([0,0,1,1])), (4, np.array([...])) ```