Advertisement

Spark Atlas Connector:用于在Apache Atlas中追踪数据沿袭的工具

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
Spark Atlas Connector是一款专为Apache Spark设计的插件,旨在促进与Apache Atlas的集成,简化大数据平台上的元数据管理和数据血统跟踪。 Spark Atlas连接器用于跟踪Spark SQL/ DataFrame转换并将元数据更改推送到Apache Atlas的连接器。此连接器支持以下功能: - 跟踪SQL DDL语句,例如“创建数据库”、“删除数据库”、“修改数据库”,以及“创建表”、“删除表”和“修改表”。 - 支持跟踪各种SQL DML操作,如“CREATE TABLE tbl AS SELECT”,“INSERT INTO ...”,“LOAD DATA [LOCAL] INPATH”,及 “INSERT OVERWRITE [LOCAL] DIRECTORY”等。 - 跟踪具有输入输出的DataFrame转换以及机器学习管道中的数据处理流程。 该连接器能够与Hive、HDFS等其他系统关联,以便在Atlas中追踪和管理数据生命周期。为了使用此连接器,请确保您拥有Spark 2.3或更高版本(大多数功能仅适用于Spark 2.3.0及以上版本)。 若要构建该项目,请执行mv操作进行相关设置。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • Spark Atlas ConnectorApache Atlas沿
    优质
    Spark Atlas Connector是一款专为Apache Spark设计的插件,旨在促进与Apache Atlas的集成,简化大数据平台上的元数据管理和数据血统跟踪。 Spark Atlas连接器用于跟踪Spark SQL/ DataFrame转换并将元数据更改推送到Apache Atlas的连接器。此连接器支持以下功能: - 跟踪SQL DDL语句,例如“创建数据库”、“删除数据库”、“修改数据库”,以及“创建表”、“删除表”和“修改表”。 - 支持跟踪各种SQL DML操作,如“CREATE TABLE tbl AS SELECT”,“INSERT INTO ...”,“LOAD DATA [LOCAL] INPATH”,及 “INSERT OVERWRITE [LOCAL] DIRECTORY”等。 - 跟踪具有输入输出的DataFrame转换以及机器学习管道中的数据处理流程。 该连接器能够与Hive、HDFS等其他系统关联,以便在Atlas中追踪和管理数据生命周期。为了使用此连接器,请确保您拥有Spark 2.3或更高版本(大多数功能仅适用于Spark 2.3.0及以上版本)。 若要构建该项目,请执行mv操作进行相关设置。
  • spark-atlas-connector预编译jar包
    优质
    Spark Atlas Connector预编译的Jar包提供了一种简单的方法来集成Apache Spark与Atlas元数据服务,便于用户管理和监控大数据环境中的数据资产。 Atlas的Spark SQL插件提供了一种将元数据管理和治理功能集成到大数据应用程序中的方法。它支持对使用Spark进行的数据处理任务执行自动化元数据收集、分类和血统跟踪,从而帮助用户更好地理解和管理其数据资产。通过与Apache Atlas紧密协作,这个插件能够增强企业级数据资产管理能力,并促进更有效的数据分析环境构建。
  • Apache Atlas-2.2.0
    优质
    Apache Atlas 2.2.0是一款开源的数据治理工具,它提供了元数据管理、分类和血统分析等功能,帮助企业实现高效的数据管理和合规性。 Apache Atlas 是一个开源的数据治理平台,专注于元数据管理、数据血缘追踪以及数据安全等功能。在2.2.0版本中,它提供了更强大的功能和完善的服务来支持企业级大数据环境中的数据治理需求。 Apache Atlas 的核心是元数据管理。元数据包含关于数据的定义、属性、来源和格式等信息。该平台提供了一个统一的元数据库,可以存储各种类型的数据资产的元数据,如数据库表、Hadoop文件以及 Hive 表等等。在2.2.0版本中,可能已经对这些功能进行了优化,使得用户能够更快地检索所需的信息。 Apache Atlas 的另一大亮点是其强大的数据血缘追踪能力。它记录了从生成到消费的数据整个生命周期的过程,并且在2.2.0版本中这一特性更加成熟和完善。这有助于更好地支持复杂的数据处理流程,帮助用户理解不同阶段的来源和去向以及变化情况。 此外,Apache Atlas 还关注数据安全问题。通过定义并实施分类与标签策略等机制来确保敏感信息得到妥善保护,在该版本的安全功能可能得到了增强,并且包含了更精细的访问控制及严谨的数据加密措施。 在部署方面,2.2.0 版本提供了预编译包供用户直接使用而无需进行额外的编译过程。然而需要注意的是,“hook 包”并未包含其中,这意味着某些特定数据源集成或自动发现功能可能需要自行配置或添加相应的hooks。 Apache Atlas 还支持与其他 Apache 项目如 Hadoop、Hive 和 Spark 等无缝集成,在2.2.0版本中这些连接已经过测试和优化,并提供了更加稳定流畅的用户体验。通过元数据库管理,数据血缘追踪以及安全控制等功能,该平台帮助企业建立并维护一个合规透明且安全的数据环境。 对于需要管理和监控大量信息的企业而言,Apache Atlas 无疑是一个非常有价值的工具。
  • Apache Atlas 2.1.0 Server.tar.gz
    优质
    Apache Atlas 2.1.0 Server.tar.gz 是一个用于元数据管理和治理的开源框架的服务器包,适用于大数据平台和应用。 apache-atlas-2.1.0-server.tar.gz是基于cdh6.3.1编译完成的。
  • Apache Atlas 2.2.0 Server.tar.gz
    优质
    Apache Atlas 2.2.0 Server.tar.gz是一款用于元数据管理与治理的开源框架,支持企业级数据资产的分类、管理和监控。该压缩包包含了部署Atlas服务所需的所有文件和资源。 Apache Atlas 2.2.0安装包可以直接解压并启动,执行命令:bin/atlas_start.py。
  • Apache Atlas 2.1.0 Server.tar.gz
    优质
    Apache Atlas 2.1.0 Server.tar.gz是一款开源的数据治理平台压缩包,适用于大数据环境下的元数据管理和安全管理。该版本提供了增强的数据分类和自动化规则执行功能。 atlas-2.1.0编译完成版本包含内置的solr和hbase。
  • apache-atlas-1.2.0-server.tar.gz 编译安装包 (Atlas)
    优质
    Apache Atlas 1.2.0 是一个元数据治理平台的源码编译版本,提供企业级的数据资产管理能力。此压缩包内含服务器端文件,便于开发者进行二次开发与部署使用。 编译安装atlas包。
  • atlas hive hook编译依赖apache-atlas-1.2.0-hive-hook.tar.gz
    优质
    这段内容描述了Atlas Hive Hook的构建过程及其对特定版本Apache Atlas归档文件的依赖。在进行相关开发或部署时,需要确保使用正确的tar包以避免兼容性问题。 atlas hive hook 资源包包含了用于集成Atlas与Hive的钩子脚本和其他相关资源。这些工具可以帮助用户更好地管理和监控Hive的数据操作过程,并将其活动记录到Apache Atlas中,以便进行元数据管理、血缘分析和合规性检查等任务。
  • Atlas-FM:Atlas下载内容软件
    优质
    Atlas-FM是一款专为用户设计的软件工具,旨在简化从Atlas平台下载和管理各种类型内容的过程。 使用Atlas ID,您可以建立连接并从Atlas下载内容。
  • Apache Atlas 2.0.0-SNAPSHOT版本预编译包(apache-atlas-2.0.0-SNAPSHOT-server.tar.gz)
    优质
    Apache Atlas 2.0.0-SNAPSHOT版提供了一个预编译包(apache-atlas-2.0.0-SNAPSHOT-server.tar.gz),此版本包含多项改进和新功能,适用于数据治理与元数据管理。 Apache Atlas 是由 Apache 软件基金会开发的元数据管理系统,主要设计用于大数据环境,提供数据治理、元数据管理和数据血缘追踪等功能。Apache Atlas 2.0.0-SNAPSHOT 版本是该项目的一个开发版本,包含最新的特性和改进。在压缩包“apache-atlas-2.0.0-SNAPSHOT-server.tar.gz”中,用户可以找到编译好的 Apache Atlas 服务器,无需自行编译源代码,可以直接解压并使用。 **Apache Atlas 的核心概念和功能** 1. **元数据管理**:提供全面的元数据存储库来存储数据实体(如表、列、数据库)的定义、属性和关系。这有助于用户理解数据的意义及应用,并支持实施治理策略。 2. **分类与标签**:允许创建自定义的数据分类和标签,便于组织和搜索数据资产。分类是预设的数据属性模板,而标签则是这些模板的具体运用,可快速标识并分类数据资源。 3. **数据血缘追踪**:跟踪记录数据的来源及流向信息,帮助用户理解处理流程,并识别问题根源。 4. **数据治理**:提供政策和访问控制支持以确保安全性和合规性。它还允许定义不同级别敏感性的应用范围。 5. **数据生命周期管理**:通过设置策略来指导创建、使用、保留到销毁的全过程管理。 6. **RESTful API 和 GraphQL 支持**:为开发人员提供了集成元数据服务至其他系统的接口,促进自动化操作。 7. **插件扩展性**:支持针对特定存储系统(如 Hadoop, Hive, HBase 等)的功能拓展。 **安装与部署 Apache Atlas 2.0.0-SNAPSHOT** 1. 下载并解压“apache-atlas-2.0.0-SNAPSHOT”压缩包。 2. 安装依赖环境,包括 Java Development Kit (JDK) 版本8及以上、HBase 和 Solr 等基础服务。 3. 配置 Atlas 的配置文件如 `atlas-application.properties` 文件,并设置 HBase 和 Solr 相关连接信息。 4. 初始化 HBase 和 Solr,创建必要的表和索引结构。 5. 启动 Apache Atlas 服务,执行命令 `bin/atlas_start.sh`。 6. 访问默认的 Web 界面地址 http://:21000/atlas。 **使用Apache Atlas** 1. 创建数据模型:定义实体、属性、分类和标签以提供规范的数据架构描述; 2. 注册数据实例到 Apache Atlas,获取元数据管理的优势; 3. 利用元数据标签及分类执行高级搜索功能,快速定位所需资源; 4. 分析查看生成路径信息,理解处理流程细节; 5. 定义并实施访问控制、质量检查等治理策略。 Apache Atlas 为大数据环境中的数据治理和元数据管理提供了强大支持,帮助组织更好地管理和利用其数据资产。通过解压及运行提供的服务器包,用户可以直接体验该工具的各项功能。