【DataX篇】DataX的两种部署方式以及DataX-Web可视化管理平台的搭建

【DataX篇】DataX的两种部署方式以及DataX-Web可视化管理平台的搭建
💫《博主主页》:
🔎 ZEEKLOG主页:奈斯DB
🔎 IF Club社区主页:奈斯、
🔎 微信公众号:奈斯DB
🔥《擅长领域》:
🗃️ 数据库:阿里云AnalyticDB(云原生分布式数据仓库)、Oracle、MySQL、SQLserver、NoSQL(Redis)
🛠️ 运维平台与工具:Prometheus监控、DataX离线异构同步工具
💖如果觉得文章对你有所帮助,欢迎点赞收藏加关注💖

    这篇文章将系统的分享 DataX 的安装部署实践,详细拆解DataX的两种核心部署方式——二进制部署与源码编译部署,并深入探讨动态参数配置、并发度优化等关键调优技巧。🎯

    在此基础上,也将进一步介绍如何集成 DataX-Web可视化管控平台 ,以构建一个具备 统一调度、实时监控与高效管理 能力的企业级数据同步运维体系。🚀

   

DataX二进制、源码安装部署的 Github 地址:
https://github.com/alibaba/DataX/blob/master/userGuid.md

   

DataX-Web二进制、源码安装部署的 Github 地址:
https://github.com/WeiYe-Jing/datax-web


   
   

DataX全系列文章(实时更新 🔥 ):

   

目录


   

主机名IP地址配置系统描述
datax192.168.82.1334C 16GCentOS Linux 7.6DataX在执行多个同步任务的时候比较消耗内存,因此如果有多个同步任务需要分配的物理内存需要多一些
注意:DataX和DataX-Web的软件安装目录,以及相关其他插件都存储到了分配好的/data目录下,所以生产环境需要按照规划的数据盘进行存储。

   

一、二进制、源码方式安装

环境准备:

Linux 操作系统: DataX部署在Linux上JDK(1.8 及其以上都可以,推荐 1.8): Oracle Java JDK下载链接,https://www.oracle.com/cn/java/technologies/downloads/Python(2 或者 3 都可以): 默认Linux上都会预装python2。redhat的yum镜像没有python3,CentOS的yum镜像是可以直接安装python3的。python官网链接,https://www.python.org/downloads/Apache Maven 3.x(只有源码编译安装需要): Apache Maven官网链接,https://maven.apache.org/download.cgi

   

1.1 二进制方式安装

1)进入到github官网的DataX主页:DataX
    下拉到“Quick Start”部分,然后点击下载


   
2)安装data所需的jdk依赖包

   

3)登录到Linux服务器,解压DataX安装包到指定的目录下

   
4)通过DataX提供的自测脚本,通过python命令测试一下能不能正常启动一个同步任务

### DataX 这个项目本身是用 Python2.7 进行开发的,因此需要使用 Python2.7 的版本进行执行。

   

踩坑问题总结

问题一:描述: 如果执行自检程序出现如下错误解决方案: 将 plugin 目录下的所有的以 _ 开头的文件都删除即可

   

1.2 源码方式安装(了解即可)

安装步骤参考官方 github 详细介绍:DataX源码方式安装
   

1)下载DataX源码:

   
2)通过maven打包:如果打包成功,日志显示如下:

    打包成功后的DataX包位于 {DataX_source_code_home}/target/datax/datax/ ,结构如下:

   

二、python 3 支持

    DataX 这个项目本身是用 Python2.7 进行开发的,因此需要使用 Python2.7 的版本进行执行。如果使用 python3 执行的话,可能会出现问题,因为 3 和 2 的语法差异还是比较大的。
    如果需要使用 python3 去执行数据同步的计划,需要修改 bin 目录下的三个 py 文件,将这三个文件中的如下部分修改即可:


   

Python 2 升级到 Python 3 时必须修改的两个核心语法变化——print 从语句变为函数,异常捕获语法从逗号改为 as 关键字:print xxx 替换为 print(xxx)                   ### 打印语法变更Exception, e 替换为 Exception as e     ### 异常捕获语法变更
   

同样的,通过DataX提供的自测脚本,通过python3命令测试一下能不能正常启动一个同步任务

### 虽然 python3 的语法变更,但是也向下兼容,同样可以使用 python2 执行

   

三、DataX动态传参

    DataX 同步数据的时候需要使用到自己设置的配置文件,其中可以定义同步的方案,通常为 json 的格式。在执行同步方案的时候,json文件中的channel、password、username等等都是静态的参数数据,有些场景下需要有一些动态的数据。例如:将 MySQL 的数据同步到 HDFS,多次同步的时候只是表的名字和字段不同。eg:比如MySQL中有一个订单表orders需要同步到HDFS中,那么第一次同步肯定是全量同步,将数据全量同步到今天,比如今天的日期是2025-06-30,之后的每天每时每秒订单表都在产生新的数据,那么之后就没有必要进行全量同步,只需要进行增量同步,如果在json文件写了where条件,比如where date=‘2025-07-01’,那么是进行了增量同步,但之后的每一天都需要修改这个where条件,非常的不智能。因此就需要使用到动态传参,让增量同步的where条件变的智能,自动进行调整。将 MySQL 的数据增量的同步到 HDFS 或者 Hive 中的时候,需要指定每一次同步的时间。
   

    这些时候,如果我们每一次都去写一个新的 json 文件将会非常麻烦,此时我们就可以使用 动态传参
    所谓的动态传参,就是在 json 的同步方案中,使用类似变量的方式来定义一些可以改变的参数。在执行同步方案的时候,可以指定这些参数具体的值。

   

3.1 动态传参的案例



    在使用到同步方案的时候,可以使用 -D 来指定具体的参数的值。例如在上述的 json 中,我们设置了一个参数 TIMES,在使用的时候,可以指定 TIMES 的值,来动态的设置 sliceRecordCount 的值。

   

四、并发设置

  在 DataX 的处理流程中,Job 会被划分成为若干个 Task 并发执行,被不同的 TaskGroup 管理。在每一个 Task 的内部,都由 reader -> channel -> writer 的结构组成,其中 channel 的数量决定了并发度。那么 channel 的数量是怎么指定的?直接指定 channel 数量通过 Bps 计算 channel 数量通过 tps 计算 channel 数量
   

  下面对三种计算 channel 数量的方式进行一一介绍:

   

4.1 直接指定 channel 数量

    在同步方案的 json 文件中,我们可以设置 job.setting.speed.channel 来设置 channel 的数量。这是最直接的方式。在这种配置下,channel 的 Bps 为默认的 1MBps,即每秒传输 1MB 的数据。
   

在json文件中,指定channel数量的截图如下:


###DataX中默认一个TaskGroup(任务组)的并发数量为5,也就是channel,相关参数的定义在conf目录下的core.json文件中。可以看到如下分配了10个并发,每个并发都由 reader -> channel -> writer 的结构组成,10个task分成了2个TaskGroup(taskGroupId=[0]、taskGroupId=[1]),然后不同的TaskGroup下通过task执行(taskGroup[0] taskId[5]、taskGroup[1] taskId[0]…)

   
对上述的日志进行分析:一个Job被拆分成了两个任务组。因为DataX中默认一个TaskGroup(任务组)的并发数量为5,也就是channel,因此为了满足10个通道的需求,自动创建2个任务组
   
用建筑工地比喻这个场景,整个工程(Job):要搬10堆砖(10个任务),有10个工人(10个通道)。但工头决定:工地A(任务组0):派5个工人,负责搬砖堆1-5工地B(任务组1):派5个工人,负责搬砖堆6-10
   

两个工地同时开工,互不干扰!
   阶段1:任务切分

   阶段2:任务组调度(关键变化!)

   阶段3:任务执行

   

4.2 通过 Bps 计算 channel 数量

    Bps(Byte per second)是一种非常常见的数据传输速率的表示,在 DataX 中,可以通过参数设置来限制总 Job 的 Bps 以及单个 channel 的Bps,来达到限速和 channel 数量计算的效果。
Job Bps: 对一个 Job 进行整体的限速,可以通过 job.setting.speed.byte 进行设置(单位字节)。channel Bps: 对单个 channel 的限速,可以通过core.transport.channel.speed.byte 进行设置(单位字节)。和上面的Job Bps必须同时设置。
   

在json文件中,指定Job Bps的截图如下:

   

在json文件中,指定channel Bps的截图如下,需要注意core和job是平级参数


###DataX中默认一个TaskGroup(任务组)的并发数量为5,也就是channel,相关参数的定义在conf目录下的core.json文件中。根据计算公式(channel=500/50)看到如下分配了10个并发,每个并发都由 reader -> channel -> writer 的结构组成,10个task分成了2个TaskGroup(taskGroupId=[0]、taskGroupId=[1]),然后不同的TaskGroup下通过task执行(taskGroup[0] taskId[2]、taskGroup[1] taskId[6]…)

   

4.3 通过 tps 计算 channel 数量

    tps(transcation per second)是一种很常见的数据传输速率的表示,在 DataX 中,可以通过参数设置来限制总 Job 的 tps 以及单个 channel 的 tps,来达到限速和 channel 数量计算的效果。
Job tps: 对一个 Job 进行整体的限速,可以通过 job.setting.speed.record 进行设置(单位每秒传输N条数据)。channel tps: 对单个 channel 的限速,可以通过 core.transport.channel.speed.record 进行设置(单位每秒传输N条数据)。和上面的Job tps必须同时设置。

   
在json文件中,指定Job tps的截图如下:

   

在json文件中,指定channel tps的截图如下,需要注意core和job是平级参数


###DataX中默认一个TaskGroup(任务组)的并发数量为5,也就是channel,相关参数的定义在conf目录下的core.json文件中。根据计算公式(channel=500/100)看到如下分配了5个并发,每个并发都由 reader -> channel -> writer 的结构组成,5个task分成了1个TaskGroup(taskGroupId=[0]),然后不同的TaskGroup下通过task执行(taskGroup[0] taskId[0]、taskGroup[0] taskId[1]…)

   

4.4 如果同时配置了如上的多种方式,那么优先级如下:

如果同时配置了 Bps 和 tps 限制,以小的为准。只有在 Bps 和 tps 都没有配置的时候,才会以 channel 数量配置为准。

   

在json文件中,同时配置了直接指定 channel 数量、通过 Bps 计算 channel 数量、通过 tps 计算 channel 数量这三种方式


###DataX中默认一个TaskGroup(任务组)的并发数量为5,也就是channel,相关参数的定义在conf目录下的core.json文件中。根据优先级并发将采用“通过 tps 计算 channel 数量”,原因参考上面的优先级。根据计算公式(channel=500/100)看到如下分配了5个并发,每个并发都由 reader -> channel -> writer 的结构组成,5个task分成了1个TaskGroup(taskGroupId=[0]),然后不同的TaskGroup下通过task执行(taskGroup[0] taskId[2]、taskGroup[0] taskId[1]…)

   

五、二进制、源码方式部署DataX-Web

环境准备:

MySQL (5.5+) 必选, 对应客户端可以选装, Linux服务上若安装mysql的客户端可以通过部署脚本快速初始化数据库JDK (1.8.0_xxx) 必选Maven (3.6.1+) 必选DataX 必选Python (2.x) (支持Python3需要修改替换datax/bin下面的三个python文件,替换文件在doc/datax-web/datax-python3下) 必选, 主要用于调度执行底层DataX的启动脚本,默认的方式是以Java子进程方式执行DataX,用户可以选择以Python方式来做自定义的改造

   

5.1 二进制方式安装

1)进入到github官网的DataX-Web主页:https://github.com/WeiYe-Jing/datax-web
    下拉到“Quick Start”部分,点击“一键部署”,然后就进入到了DataX-Web的安装部署文档界面

    下载官方提供的版本tar版本包


   
   
2)在安装部署前先部署MySQL数据库
    datax-web需要将一些元数据信息保存到数据库。MySQL的安装部署可以自行安装哦,这里就不写部署步骤了
   
   
3)登录到Linux服务器,解压Data-Web包,和datax部署在一个目录下

###/data/DataX是datax软件的安装目录,将Data-Web部署和datax在一个目录下
   
   

4)执行一键安装脚本
    进入解压后的目录,找到bin目录下面的install.sh文件,进行交互式安装,则直接执行

###进行交互式安装,如果你的服务上安装有mysql命令,在执行安装脚本的过程中则会出现以下提醒。按照提示输入数据库地址,端口号,用户名,密码以及数据库名称;并且datax-web需要将一些元数据信息保存到数据库中,按照提示执行datax_web.sql数据库初始化脚本

注意:如上是交互式安装,在交互模式下,对各个模块的package压缩包的解压以及configure配置脚本的调用,都会请求用户确认,可根据提示查看是否安装成功,如果没有安装成功,可以重复尝试; 如果不想使用交互模式,跳过确认过程,则执行 --force 命令安装:./bin/install.sh --force

   
    

进入到MySQL数据库中,查看创建的数据库



   

如果服务上并没有安装mysql命令,则可以取用目录下./bin/db/datax-web.sql脚本去手动执行,完成后修改相关配置文件

###按照提示输入数据库地址,端口号,用户名,密码以及数据库名称


   
   

5)配置邮件服务(可跳过)
    在项目目录(/data/DataX/datax-web-2.1.2/)下/modules/datax-admin/bin/env.properties 配置邮件服务。data-web提供了失败告警功能,如果某一个任务执行失败,可以通过配置的邮件服务给指定邮箱发送一封“执行失败“的邮件



   
   

6)指定PYTHON_PATH的路径


   
   

7)一键启动和一键关闭DataX-Web服务一键启动所有服务

###中途可能发生部分模块启动失败或者卡住,可以退出重复执行,如果需要改变某一模块服务端口号,则 vi ./modules/{module_name}/bin/env.properties 找到SERVER_PORT配置项,改变它的值即可。 当然也可以单一地启动某一模块服务:./bin/start.sh -m {module_name}

   一键取消所有服务

###当然也可以单一地停止某一模块服务:./bin/stop.sh -m {module_name}

   
   

8)查看服务(注意!注意!)
    在Linux环境下使用 JPS 命令,查看是否出现DataXAdminApplicationDataXExecutorApplication进程,如果存在这表示项目运行成功。
    如果项目启动失败,请检查启动日志: modules/datax-admin/bin/console.out或者modules/datax-executor/bin/console.out注意:脚本使用的都是bash指令集,如若使用sh调用脚本,可能会有未知的错误



   
   

9)运行
    部署完成后,在浏览器中输入 http://ip:port/index.html 就可以访问对应的主界面(ip为datax-admin部署所在服务器ip,port为datax-admin 指定的运行端口,默认9527)

    输入用户名 admin 密码 123456 就可以直接访问系统

   
   

10) 运行日志
    部署完成之后,在modules/对应的项目/data/applogs下(用户也可以自己指定日志,修改application.yml 中的logpath地址即可),用户可以根据此日志跟踪项目实际启动情况。
    如果执行器启动比admin快,执行器会连接失败,日志报"拒绝连接"的错误,一般是先启动admin,再启动executor,30秒之后会重连,如果成功请忽略这个异常。

   

5.2 编译打包安装(了解即可)

安装步骤参考官方github详细介绍:DataX-Web 编译打包方式安装

   
   

1) 编译打包(官方提供的tar包跳过)
直接从Git上面获得源代码,在项目的根目录下执行如下命令

执行成功后将会在工程的build目录下生成安装包

    至此,从安装部署到Web管理平台搭建,一个高效可控的DataX同步体系已搭建完成。如在部署过程中遇到任何问题,欢迎在评论区分享交流!💡

Read more

GLM-4v-9b实战指南:用llama.cpp GGUF格式在消费级GPU部署多模态模型

GLM-4v-9b实战指南:用llama.cpp GGUF格式在消费级GPU部署多模态模型 1. 为什么你需要关注GLM-4v-9b 你有没有遇到过这样的场景:一张密密麻麻的财务报表截图发到工作群,大家却没人愿意花十分钟手动抄录数据;或者客户发来一张手机拍的电路板照片,问“这个元件型号是什么”,你只能回个尴尬的微笑;又或者团队正在做竞品分析,需要从几十份PDF产品手册里快速提取图表信息——这些不是小问题,而是每天真实消耗工程师、运营、产品经理大量时间的“视觉理解黑洞”。 过去,这类任务要么靠人工硬啃,要么得调用API付费接口,响应慢、成本高、隐私难保障。直到2024年,智谱AI开源了glm-4v-9b——一个真正能在你自己的RTX 4090上跑起来的90亿参数多模态模型。它不只是一张“能看图说话”的新名片,而是把高分辨率图像理解能力,塞进了一张消费级显卡的显存里。 重点来了:它支持原生1120×1120输入,这意味着你不用再把一张A4扫描件缩成模糊小图上传;它对中文表格、小字号OCR、技术类图表的理解,在公开评测中直接超过了GPT-4-turbo和Claude 3 Opus;

使用 VS Code 与 GitHub Copilot 高效 Vibe Coding 指南

欢迎大家关注「几米宋」的微信公众号,公众号聚焦于云原生、AI、服务网格、工具教程、技术观察以及日常感悟等内容,更多精彩内容请访问个人网站 jimmysong.io。 📄 文章摘要 掌握 VS Code 与 GitHub Copilot 的高效开发技巧,提升你的编程体验与效率,开启愉快的 vibe coding 之旅。 🔗 在 jimmysong.io 上 阅读原文 体验更佳。 最近一段时间笔者试用了众多的 vibe coding(氛围编程)工具,但是试用了一圈后,最终还是选择了 VS Code 与 GitHub Copilot 的组合。不为别的,就是因为最得心应手、性价比最高、最有可扩展性。本文将从环境配置、工作空间和插件、界面布局、

[AI工具箱] Vheer:免费、免登录,一键解锁AI绘画、视频生成和智能编辑

[AI工具箱] Vheer:免费、免登录,一键解锁AI绘画、视频生成和智能编辑

项目简介 今天偶然发现了个堪称“赛博活佛”的AI网站,名叫Vheer。它的作风相当大方,里面绝大部分功能都直接免费敞开用,就问你服不服。 文生图、图生视频、智能修图这些主流AI功能一个不落。点开就能用。而且非常的大气,比如抠图,别的网站按张收费,它直接让你一口气传20张照片自动处理,完全免费,甚至你去花时间不需要注册。 它几乎移除了所有上手障碍。网站首页清晰地排列着各种功能,没有晦涩的术语。你想把文字变成图片,或者让静态照片动起来,点开对应的按钮,输入你的想法,结果很快就能呈现在你面前。整个过程简单得就像在用一款普通的手机APP。 食用指南 访问地址 传送地址 官网的免费会员上面写的几个非常吸引人的地方,第一没有任何水印,第二生成图片视频这些是没有任何数量上的限制,只有高级别的模型和高速通道不能使用(但是实测下来,生成的速度也是相当不错)。 网站也提供了一些订阅模式,可以使用更高级的模型,但是这些高级模型需要消耗算力点。根据自己的需要看是否订阅。 由于功能实在太多了,强烈建议亲手测试一下 操作与体验——文生图 官网光一个文生图的功能就折腾出来了40多个功能,除了

从GAN到ChatGPT:AIGC技术演进与实战应用指南

快速体验 在开始今天关于 从GAN到ChatGPT:AIGC技术演进与实战应用指南 的探讨之前,我想先分享一个最近让我觉得很有意思的全栈技术挑战。 我们常说 AI 是未来,但作为开发者,如何将大模型(LLM)真正落地为一个低延迟、可交互的实时系统,而不仅仅是调个 API? 这里有一个非常硬核的动手实验:基于火山引擎豆包大模型,从零搭建一个实时语音通话应用。它不是简单的问答,而是需要你亲手打通 ASR(语音识别)→ LLM(大脑思考)→ TTS(语音合成)的完整 WebSocket 链路。对于想要掌握 AI 原生应用架构的同学来说,这是个绝佳的练手项目。 从0到1构建生产级别应用,脱离Demo,点击打开 从0打造个人豆包实时通话AI动手实验 从GAN到ChatGPT:AIGC技术演进与实战应用指南 技术背景:关键模型演进时间轴 2014年 - GAN横空出世 生成对抗网络(GAN)通过生成器与判别器的对抗训练,首次实现了高质量图像生成。核心突破在于: