DataX-web安装使用教程
1. 环境准备
- MySQL (5.5+) 必选,对应客户端可以选装, Linux服务上若安装mysql的客户端可以通过部署脚本快速初始化数据库
- JDK (1.8.0_xxx) 必选
- Python (2.x) 必选 (支持Python3需要修改替换datax/bin下面的三个python文件,替换文件在doc/datax-web/datax-python3下) ,主要用于调度执行底层DataX的启动脚本,默认的方式是以Java子进程方式执行DataX,用户可以选择以Python方式来做自定义的改造
2.DataX安装
2.1 下载DataX安装包
DataX详情介绍:https://github.com/alibaba/DataX/blob/master/introduction.md
DataX官网下载地址:https://github.com/alibaba/DataX
网盘地址链接:https://pan.baidu.com/s/1qxCi1k36mbHWfuxfMpTfxg 提取码: 1234
2.2 安装DataX
上传后进行解压并检测安装是否成功
# 下载上传后进行解压 tar -zxvf /opt/software/datax.tar.gz -C /opt/modules/ # 运行自检脚本 python /opt/modules/datax/bin/datax.py /opt/modules/datax/job/job.json
当输出下图结果代表安装成功

3.DataX-web安装
3.1 下载DataX-web安装包
DataX-web官网下载地址:https://github.com/WeiYe-Jing/datax-web
网盘地址链接: https://pan.baidu.com/s/1UmFMHdVamfOOo4KEezBkeQ 提取码: 1234
3.2 安装DataX-web
3.2.1 上传后进行解压
# 下载上传后进行解压 tar -zxvf /opt/software/datax-web-2.1.2.tar.gz -C /opt/modules/
3.2.2 在Mysql中创建存放datax-web任务信息的库表
创建数据库dataxweb
# 创建 dataxweb 数据库 create database dataxweb;在dataxweb中执行datax_web.sql脚本
脚本位置为:/opt/modules/datax-web-2.1.2/bin/db/datax_web.sql
3.2.3 执行安装datax-web命令
# 执行安装命令 sh /opt/modules/datax-web-2.1.2/bin/install.sh安装过程中需要下载一些插件,输入“Y”下载即可

安装过程中需要输入数据库配置,输入提前准备好的Mysql相关信息:ip port username password databaseName

3.2.4 DataX-web中配置datax路径
/opt/modules/datax-web-2.1.2/modules/datax-executor/conf/application.yml
# vi 编辑文本 application.yml vi /opt/modules/datax-web-2.1.2/modules/datax-executor/conf/application.yml # 最后一行添加DataX执行命令 pypath: /opt/modules/datax/bin/datax.py
3.2.5 启动 DataX-web
# 启动datax-web sh /opt/modules/datax-web-2.1.2/bin/start-all.sh4.DataX-web登录使用
4.1 登录DataX-web
登录地址:http://{你的ip}:9527/index.html用户名:admin密码:123456

登录后报如下错误:Unknown column 't.user_id' in 'field list'。

这个错误表示DataX Web的数据库表结构不完整。具体问题是:job_info表中缺少 user_id字段。
我们可以手动添加缺失字段
-- 检查表结构 DESC job_info; -- 添加缺失的user_id字段 ALTER TABLE job_info ADD COLUMN user_id VARCHAR(50) DEFAULT NULL COMMENT '用户ID' AFTER update_time; -- 验证字段是否添加成功 DESC job_info;4.2 使用DataX-web
新建项目

创建DataX任务模板,以后创建的任务使用相关的模板。

创建数据库链接

下面开始配置数据同步任务,可以批量配置,也可单独配置,本次以单独配置为例

点击 “构建” 生成任务json,选择 “选择模版” 选择对应的调度模板绑定任务。

查看并执行任务
点击执行一次后便可手动执行,如需定时执行可将状态部分改成启动。

查看任务执行状况

查看任务报错信息

报错原因:
DataX配置了总bps限速(1048576字节/秒 = 1MB/秒),同时配置了3个channel,但没有配置单个channel的bps值
修复:增大 byte ,修改核心配置文件:/opt/modules/datax/conf/core.json
将byte值从默认的1048576调整为更高的正整数5m(如5242880),并确保record不为负数(如设为1000或删除record字段)。
# 修改 byte record 参数 "transport": { "channel": { "class": "com.alibaba.datax.core.transport.channel.memory.MemoryChannel", "speed": { "byte": 5242880,// 修改为正整数(如5MB)JSON不支持注释 "record": 1000 // 确保record值不为负数(可选)JSON不支持注释 }, "flowControlInterval": 20, "capacity": 512, "byteCapacity": 67108864 }, "exchanger": { "class": "com.alibaba.datax.core.plugin.BufferedRecordExchanger", "bufferSize": 32 } },修改完配置再次执行
