DataX 安装部署与 DataX-Web 管理平台搭建
环境准备
| 主机名 | IP 地址 | 配置 | 系统 | 描述 |
|---|---|---|---|---|
| datax | 192.168.82.133 | 4C 16G | CentOS Linux 7.6 | DataX 在执行多个同步任务的时候比较消耗内存,因此如果有多个同步任务需要分配的物理内存需要多一些 |
注意:DataX 和 DataX-Web 的软件安装目录,以及相关其他插件都存储到了分配好的/data 目录下,所以生产环境需要按照规划的数据盘进行存储。
一、二进制、源码方式安装
环境准备
- Linux 操作系统:DataX 部署在 Linux 上
- JDK(1.8 及其以上都可以,推荐 1.8):Oracle Java JDK
- Python(2 或者 3 都可以):默认 Linux 上都会预装 python2。redhat 的 yum 镜像没有 python3,CentOS 的 yum 镜像是可以直接安装 python3 的。
- Apache Maven 3.x(只有源码编译安装需要)
1.1 二进制方式安装
- 进入 GitHub 官网的 DataX 主页,下拉到'Quick Start'部分,然后下载。
- 安装 data 所需的 jdk 依赖包。
- 登录到 Linux 服务器,解压 DataX 安装包到指定的目录下。
- 通过 DataX 提供的自测脚本,通过 python 命令测试一下能不能正常启动一个同步任务。
DataX 这个项目本身是用 Python2.7 进行开发的,因此需要使用 Python2.7 的版本进行执行。
踩坑问题总结
问题一:
- 描述:如果执行自检程序出现如下错误
- 解决方案:将 plugin 目录下的所有的以
_开头的文件都删除即可
1.2 源码方式安装(了解即可)
安装步骤参考官方 GitHub 详细介绍:DataX 源码方式安装
- 下载 DataX 源码。
- 通过 maven 打包:如果打包成功,日志显示如下。
打包成功后的 DataX 包位于
{DataX_source_code_home}/target/datax/datax/,结构如下。
二、python 3 支持
DataX 这个项目本身是用 Python2.7 进行开发的,因此需要使用 Python2.7 的版本进行执行。如果使用 python3 执行的话,可能会出现问题,因为 3 和 2 的语法差异还是比较大的。
如果需要使用 python3 去执行数据同步的计划,需要修改 bin 目录下的三个 py 文件,将这三个文件中的如下部分修改即可:
Python 2 升级到 Python 3 时必须修改的两个核心语法变化——print 从语句变为函数,异常捕获语法从逗号改为 as 关键字:
print xxx替换为print(xxx)### 打印语法变更


