本文系统分享 DataX 的安装部署实践,详细拆解 DataX 的两种核心部署方式——二进制部署与源码编译部署,并深入探讨动态参数配置、并发度优化等关键调优技巧。在此基础上,也将进一步介绍如何集成 DataX-Web 可视化管控平台,以构建一个具备统一调度、实时监控与高效管理能力的企业级数据同步运维体系。
DataX 二进制、源码安装部署的 Github 地址: https://github.com/alibaba/DataX/blob/master/userGuid.md
DataX-Web 二进制、源码安装部署的 Github 地址: https://github.com/WeiYe-Jing/datax-web
| 主机名 | IP 地址 | 配置 | 系统 | 描述 |
|---|---|---|---|---|
| datax | 192.168.82.133 | 4C 16G | CentOS Linux 7.6 | DataX 在执行多个同步任务的时候比较消耗内存,因此如果有多个同步任务需要分配的物理内存需要多一些 |
| 注意:DataX 和 DataX-Web 的软件安装目录,以及相关其他插件都存储到了分配好的/data 目录下,所以生产环境需要按照规划的数据盘进行存储。 |
一、二进制、源码方式安装
环境准备:
- Linux 操作系统: DataX 部署在 Linux 上
- JDK(1.8 及其以上都可以,推荐 1.8): Oracle Java JDK 下载链接,https://www.oracle.com/cn/java/technologies/downloads/
- Python(2 或者 3 都可以): 默认 Linux 上都会预装 python2。redhat 的 yum 镜像没有 python3,CentOS 的 yum 镜像是可以直接安装 python3 的。python 官网链接,https://www.python.org/downloads/
- Apache Maven 3.x(只有源码编译安装需要): Apache Maven 官网链接,https://maven.apache.org/download.cgi
1.1 二进制方式安装
- 进入到 github 官网的 DataX 主页:DataX 下拉到"Quick Start"部分,然后点击下载
- 安装 data 所需的 jdk 依赖包
- 登录到 Linux 服务器,解压 DataX 安装包到指定的目录下
- 通过 DataX 提供的自测脚本,通过 python 命令测试一下能不能正常启动一个同步任务
注意: DataX 这个项目本身是用 Python2.7 进行开发的,因此需要使用 Python2.7 的版本进行执行。
踩坑问题总结
问题一: 描述: 如果执行自检程序出现如下错误 解决方案: 将 plugin 目录下的所有的以 _ 开头的文件都删除即可


