DataX Web 简介
DataX Web 是在 DataX 基础上开发的分布式数据同步工具,它基于 XXL-Job 进行二次开发,提供了可视化的任务管理后台。用户无需编写复杂的 JSON 配置,通过网页点击和简单配置即可完成 DataX 任务的创建、调度与执行。
在深入使用之前,建议先对 DataX 核心原理及 XXL-Job 调度机制有一定了解。
核心优势
虽然 DataX 本身已具备强大的异构数据源同步能力,但 DataX Web 显著降低了使用门槛并提升了运维效率:
- 可视化操作:提供友好的 Web 界面,降低学习成本,减少配置错误。
- 多数据源支持:支持 RDBMS、Hive、HBase、ClickHouse、MongoDB 等多种数据源,RDBMS 支持批量任务创建。
- 任务调度与管理:集成 XXL-Job,支持定时调度、任务依赖、集群路由策略(轮询、故障转移等)。
- 监控与告警:实时查看同步进度、日志输出,支持 CPU/内存/负载监控,并提供邮件、钉钉等失败告警。
- 安全与扩展:支持任务超时控制、失败重试、JVM 参数配置,以及 Shell/Python 脚本任务扩展。
架构概览
整体架构与 XXL-Job 类似,包含调度中心与执行器集群。调度中心负责触发和调度任务,同时监控各执行器的状态;执行器负责实际的数据同步工作,支持高可用集群部署。
环境准备与安装
1. 获取源码
从官方仓库拉取最新代码:
git clone https://github.com/WeiYe-Jing/datax-web.git
cd datax-web
2. 编译打包
在根目录下执行 Maven 构建命令:
mvn clean install
构建成功后,安装包将生成于 build 目录下,例如 datax-web-{VERSION}.tar.gz。
3. 上传与解压
将压缩包上传至 Linux 服务器并解压:
tar -zxvf datax-web-{VERSION}.tar.gz
cd datax-web
如需指定目录,可移动至 /opt/module 或其他路径。
4. 初始化数据库
进入 bin 目录执行一键安装脚本。若选择交互模式,直接运行:
./bin/install.sh
按提示输入数据库地址、端口、用户名、密码等信息。若服务器未安装 MySQL 客户端,可直接执行 modules/datax-admin/conf/datax-web.sql 脚本手动初始化。
5. 配置文件调整
修改执行器环境变量,指定 Python 路径及 Admin 服务端口:
vi ./modules/{module_name}/bin/env.properties
确保 PYTHON_PATH 指向正确的 Python 解释器,DATAX_ADMIN_PORT 默认 9527,需与 admin 服务保持一致。
6. 启动服务
使用启动脚本启动所有组件:
./bin/start-all.sh
若提示找不到 JAVA_HOME,请在 etc/profile 中配置好 Java 环境变量。启动完成后,访问 ,默认账号为 ,密码 。


