Advertisement

Common-DataX:利用DataX实现的通用数据同步微服务,通过一个RESTful接口完成所有常用数据同步任务

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:ZIP


简介:
Common-DataX是一款基于DataX开发的数据同步微服务工具,提供统一RESTful接口支持各类常用数据源之间的高效、灵活和安全的数据迁移与整合。 该项目已不再维护,请参考更新后的项目datax-admin以及common-datax。 基于阿里DataX开发了一个通用的数据同步微服务,可以创建前台页面,并根据reader和writer自动进行数据同步。本项目适用于数据量较少的情况使用;若数据源较多,则请参照下面的设计思路: 由于阿里DataX存在以下缺点: - 不够自动化 - 需要手写json文件 - 手动运行job 为了节省时间,该项目提供了以下功能: - 提供通用的数据抽取RESTful接口; - HDFS自动创建数据库、表及分区; - 利用FreeMarker模板自动生成JSON文件; - 自动执行Python脚本运行Job; - 集成Azkaban进行调度管理。 例如:从MySQL同步到Hive,可以选择需要同步的MySQL表和字段信息,并输入导入至Hive的目标库、表及分区等信息。无需提前在Hive中创建数据库、表或分区;系统会根据要导出的MySQL表及其字段类型自动创建相应的Hive库、表及分区,然后执行数据迁移任务。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • Common-DataXDataXRESTful
    优质
    Common-DataX是一款基于DataX开发的数据同步微服务工具,提供统一RESTful接口支持各类常用数据源之间的高效、灵活和安全的数据迁移与整合。 该项目已不再维护,请参考更新后的项目datax-admin以及common-datax。 基于阿里DataX开发了一个通用的数据同步微服务,可以创建前台页面,并根据reader和writer自动进行数据同步。本项目适用于数据量较少的情况使用;若数据源较多,则请参照下面的设计思路: 由于阿里DataX存在以下缺点: - 不够自动化 - 需要手写json文件 - 手动运行job 为了节省时间,该项目提供了以下功能: - 提供通用的数据抽取RESTful接口; - HDFS自动创建数据库、表及分区; - 利用FreeMarker模板自动生成JSON文件; - 自动执行Python脚本运行Job; - 集成Azkaban进行调度管理。 例如:从MySQL同步到Hive,可以选择需要同步的MySQL表和字段信息,并输入导入至Hive的目标库、表及分区等信息。无需提前在Hive中创建数据库、表或分区;系统会根据要导出的MySQL表及其字段类型自动创建相应的Hive库、表及分区,然后执行数据迁移任务。
  • 3、DataXOracle至HDFS
    优质
    本篇文章主要介绍了如何使用DataX工具将Oracle数据库中的数据高效地迁移和同步到Hadoop分布式文件系统(HDFS)中,适用于需要进行大规模数据交换及处理的技术人员。 通过DataX同步Oracle相关数据至HDFS的教程介绍了如何将Oracle数据库的数据同步到HDFS,并提供了示例及验证方法。
  • DataX战:MySQL至Hive
    优质
    简介:本教程详细介绍如何使用DataX工具实现将MySQL数据库中的数据高效迁移至Hive的过程,涵盖配置文件编写及任务调度等关键步骤。 job: setting: speed: channel: 1 errorLimit: record: 0 percentage: 0.02 content: - reader:
  • 使DataX进行增量至Postgres
    优质
    本教程介绍如何利用DataX工具实现将外部数据库的增量数据高效、准确地同步到PostgreSQL中,适用于需要实时或周期性更新数据的场景。 使用Datax实现增量同步数据到Postgres涉及的是从某个源数据库迁移到PostgreSQL的场景。Datax是一个由阿里巴巴开发的数据迁移工具,支持多种数据库之间的高效、稳定且强大的数据传输。 1. **Datax 工具**:这是一个Java编写的ETL(Extract, Transform, Load)框架,用于大量数据的批量处理和转移。它兼容各种类型的数据源,包括关系型数据库、NoSQL系统以及Hadoop生态系统中的组件。 2. **增量同步**:与全量迁移不同的是,增量同步仅传输自上一次更新以来发生变化的数据记录,从而减少不必要的资源消耗并提高效率。Datax支持通过时间戳或递增ID等多种机制来实现这种高效的数据转移方式。 3. **PostgreSQL 数据库**:这是一个功能全面的开源关系型数据库管理系统,具备完整的事务处理能力、多样化的数据类型以及强大的SQL语言支持,在大数据和云计算领域广泛应用。 4. **jar 包替换**:在操作过程中需要将 `plugin-rdbms-util-0.0.1-SNAPSHOT.jar` 和 `postgresqlwriter-0.0.1-SNAPSHOT.jar` 这两个特定版本的插件文件更新到Datax的工作目录中。这通常是因为新版本修复了旧版中的问题或增加了对PostgreSQL的新功能支持。 5. **RDBMS Util 插件**:这个通用关系型数据库工具包提供了诸如查询、连接管理等基础操作的支持,适用于不同类型的RDBMS同步任务。 6. **PostgreSQL Writer 插件**:这是专门为向PostgreSQL写入数据而设计的插件。它支持全量和增量的数据迁移。 7. **配置文件**:在启动Datax进行数据同步时,需要准备一个JSON或YAML格式的配置文档来定义源数据库与目标数据库的相关信息(包括连接参数、表名等),并指定具体的同步策略。 8. **执行命令**:通过运行类似 `datax.py job.json` 的命令行指令可以启动Datax的数据迁移任务。其中,job.json就是用于描述整个操作流程的配置文件。 9. **错误处理与日志记录**:在实际部署中,应当仔细检查输出的日志信息以便及时发现并解决问题。这些日志会详细记载执行过程中的各种详情如进度、异常情况等。 10. **性能优化**:为了最大化数据迁移的速度和效率,可以调整批处理的数量或同时运行的任务数量,并根据具体情况选择合适的增量策略。 在进行此类操作时,请确保源数据库和目标数据库的稳定性和安全性。此外,在正式执行之前做好充分的数据备份工作以防止意外情况的发生。理解并掌握以上提及的知识点将有助于顺利完成从其他来源到PostgreSQL的增量数据迁移任务。
  • DataX-Web:站式工具,轻松创建跨平台传输
    优质
    DataX-Web是一款高效的数据同步工具,支持用户便捷地创建和管理跨平台的数据传输任务,实现数据无缝迁移。 DataX-Web 是在 DataX 之上开发的一款分布式数据同步工具,它提供了一个简单易用的操作界面,降低了用户使用 DataX 的学习成本,并缩短了任务配置时间,减少了配置过程中的错误。 通过页面选择数据源即可创建数据同步任务。该工具支持多种数据源类型,包括关系型数据库管理系统(RDBMS)、Hive、HBase、ClickHouse 和 MongoDB 等。对于 RDBMS 数据源,用户可以批量创建数据同步任务,并且能够实时查看数据的同步进度和日志信息,同时具备终止同步的功能。 该工具还集成了并二次开发了 xxl-job 功能,支持根据时间或自增主键进行增量数据同步。在执行器方面,它不仅支持集群部署模式,还能选择多节点路由策略,并且具有超时控制、失败重试和告警机制等特性;同时提供对 CPU 使用率、内存使用情况及系统负载的监控功能。 未来版本还会增加更多类型的数据源支持以及数据转换 UDF(用户定义函数)、表结构同步等功能,进一步满足复杂的业务场景需求。
  • 2、DataXMySQL——涵盖MySQL至MySQL及MySQL与HDFS间互相
    优质
    本文介绍了如何使用DataX工具进行高效的数据迁移和同步,重点讲解了在MySQL数据库之间以及MySQL与HDFS之间的数据同步方法。 通过DataX同步MySQL相关操作包括:MySQL到MySQL的同步、以及MySQL与HDFS之间的相互同步。这些内容在一篇博客文章中有详细介绍,该文讲述了如何实现上述数据间的迁移与整合方法。
  • DataX-Web可视化工具
    优质
    DataX-Web是一款基于DataX开发的数据同步可视化工具,提供直观的操作界面,简化了复杂的数据传输任务。它支持多种数据库和存储系统间的高效数据迁移与同步,广泛应用于大数据平台的数据集成场景中。 DataX-Web是一个可视化的数据同步工具,能够实现跨数据库的数据同步功能。该项目在实际使用中表现良好,大家可以放心下载。
  • 类似于阿里云加产品基于DataX调度工具
    优质
    这款工具类似于阿里云“数加”产品中的功能模块,专为DataX设计的数据同步任务提供高效的调度解决方案。 基于DataX的数据同步任务调度工具支持自定义定时任务,并使用crontab表达式。用户可以自由添加DataX数据同步任务。该项目的GitHub地址提供了安装和使用的详细信息:https://github.com/luoce/bt-ware-datasync-datax。
  • WinCCSQL
    优质
    本文介绍了如何利用SQL数据库技术在WinCC系统中进行数据同步的方法与步骤,助力用户提升工业自动化监控系统的数据管理效率。 WinCC与SQL Server数据库实现数据同步的方法。
  • Web分布式工具DataX-其他
    优质
    DataX是一款优秀的开源工具,用于实现不同应用场景中的多种异构数据源之间稳定高效的数据同步。它适用于大数据平台间的批量数据传输。 DataX Web 是一款建立在 DataX 之上的分布式数据同步工具,它提供了一个直观易用的操作界面以降低用户使用 DataX 的学习门槛,并缩短任务配置时间,避免了配置过程中可能产生的错误。 该系统允许用户通过页面选择所需的数据源来创建数据同步任务。对于 RDBMS 数据源而言,还支持批量生成同步任务的功能;同时提供了实时查看数据同步进度和日志的能力以及终止正在运行的任务的选项。此外,DataX Web 集成了 xxl-job 并进行了二次开发,使用户能够根据时间或自增主键进行增量的数据同步。 关于执行器的支持,它不仅支持集群部署模式,并且提供多种路由策略选择、超时控制机制、失败重试功能以及故障报警等特性。此外还具备任务依赖管理能力及对执行器的 CPU 和内存负载监控等功能。 未来版本计划增加更多数据源的支持和更复杂的数据转换UDF(用户定义函数)、表结构同步以及追踪数据血缘关系的功能,以满足更为复杂的业务需求场景。 DataX Web 的安装环境要求如下: - 语言:Java 8 (建议使用 jdk 版本1.8.201 或以上) - Python: 支持版本为Python 2.7;若需支持 Python3,则需要替换 datax/bin 下的三个python文件 - 环境系统:MacOS, Windows,Linux - 数据库:MySQL5.7 DataX Web 的主要功能包括: 1. 构建 DataX Json 文件并通过Web界面完成。 2. 将生成的任务数据保存在数据库中,方便任务迁移和管理; 3. 实时查看抽取日志,具有类似 Jenkins 日志控制台的输出能力; 4. 展示DataX运行记录,并允许用户通过页面操作停止作业执行; 5. 支持 DataX 定时任务配置及状态修改功能(启动/停止)。 6. 采用中心式设计支持集群部署 7. 分布式执行器能够自动注册并被调度节点发现; 8. 提供丰富的路由策略和阻塞处理策略,以应对高并发场景下的复杂需求; 9. 支持任务超时控制及失败重试机制,并可自定义相关参数设置。 10. 内置邮件告警机制同时支持扩展其他类型的通知方式(如短信、钉钉等); 11. 系统内置用户管理模块,允许管理员和普通用户角色切换; 12. 支持任务依赖配置,实现基于父级任务成功执行后触发子任务自动运行的功能。 13. 提供详细的调度报表及实时监控界面查看资源使用情况; 14. 能够指定增量字段并根据定时策略获取数据区间以确保数据同步的安全性; 15. 允许用户配置 DataX 启动 JVM 参数,并提供手动测试功能验证连接是否成功。 16. 提供常用任务的模板化创建选项,简化 JSON 文件构建过程; 17. 支持 Hive、MongoDB 和 HBase 等多种数据源类型; 18. 通过环境变量自动获取 DataX 目录路径,在集群部署中无需指定 JSON 及日志目录。 19. 针对增量任务提供动态参数配置功能,支持根据业务场景灵活调整分区策略; 20. 扩展了 Shell、Python 和 PowerShell 等脚本类型的任务执行; 21. 提供图形化的 CPU 内存负载监控页面以方便管理员查看资源使用状态。