异构数据迁移实战:DataX 与 DataX-Web 部署指南
一、工具简介
1. DataX 核心特性
DataX 是阿里开源的基础数据同步引擎,采用纯命令行模式。其核心架构通过 "Reader(读插件)+ Writer(写插件)" 实现跨数据源搬运,支持 MySQL、Oracle、HDFS 等多种数据库。
- 优势:轻量级、开源免费、兼容性强,适合中小规模数据迁移。
- 局限:原生不支持分表规则逻辑,需配合脚本预处理或自定义插件处理复杂拆分场景。
2. DataX-Web 核心作用
DataX-Web 是基于 DataX 的可视化调度平台,弥补了 DataX 无界面的短板。
- 功能:支持任务可视化配置、定时调度(如每日增量)、进度监控及异常告警。
- 依赖:必须关联 DataX 引擎路径才能工作,无法独立运行。
- 价值:降低操作门槛,便于非技术人员管理批量任务。
二、DataX 本地搭建
1. 下载与解压
建议从官方 GitHub 仓库获取源码:
git clone https://github.com/alibaba/DataX.git
或者使用镜像地址。解压后进入 bin 目录即可开始配置。
2. Python 环境适配
部分旧版本仅支持 Python 2.x。若你的环境为 Python 3,需替换相关脚本文件。
请前往 DataX-Web 文档仓库下载对应的 Python 3 兼容脚本,覆盖 datax/bin 目录下的三个 .py 文件,以确保执行顺畅。
3. 安装验证
在 bin 目录下执行以下命令测试基础读写能力:
python datax.py -r streamreader -w streamwriter
Windows 用户可直接在 CMD 中运行解压后的样例,观察控制台输出是否正常。
4. 简单测试案例
以将同一库下的 users 表数据同步到 users_0 表为例。新建 job001.json 放入 job 目录:
{
"job": {
"setting": {
"speed": { "channel": 2 },
"errorLimit":


