背景
对于中小企业,构建一套完整的本地化大数据平台需兼顾成本、易用性和扩展性。基于 Hadoop 生态的组件(HDFS、YARN、Hive)结合数据工具(Sqoop、Azkaban)、可视化工具(Hue)和协调服务(ZooKeeper),能够实现从数据存储、计算、调度到可视化的全链路管理。
本文基于生产环境实践,详细讲解以下组件的安装、配置与联动:
- 存储与计算:HDFS、YARN、Hive
- 数据迁移:Sqoop(Hive 与 MySQL 数据互通)
- 调度系统:Azkaban
- 可视化与协调:Hue、ZooKeeper
- 元数据管理:MySQL
一、环境规划与依赖准备
1. 服务器规划(3 节点集群)
| 节点角色 | IP 地址 | 部署服务 |
|---|
| Master | 192.168.1.101 | NameNode、ResourceManager、Hive、Hue、ZooKeeper、Azkaban Web Server、MySQL |
| Worker1 | 192.168.1.102 | DataNode、NodeManager、ZooKeeper、Azkaban Executor |
| Worker2 | 192.168.1.103 | DataNode、NodeManager、ZooKeeper |
2. 系统与依赖
- 操作系统:CentOS 7.9(所有节点)
- JDK:JDK 8u381
- MySQL:5.7.44(存储 Hive 元数据)
- Python:3.6+(Hue 依赖)
3. Hadoop 生态组件版本与下载路径
| 组件 | 稳定版本 | 官方下载路径 |
|---|
| HDFS | 3.3.6 | Apache Hadoop Releases |
| YARN | 3.3.6 | 同上 |
| Hive | 3.1.3 | Apache Hive Downloads |
| Hue | 4.11.0 | Gethue Releases |
| ZooKeeper | 3.7.1 | Apache ZooKeeper |
| MySQL | 5.7.44 | MySQL Community Server |
| Sqoop | 1.4.7 | Apache Sqoop |
| Azkaban | 4.0.0 | Azkaban GitHub Releases |
| Python 3.6+ | EPEL 仓库安装 | sudo yum install -y epel-release; sudo yum install -y python36 python36-devel |
二、Hadoop(HDFS+YARN)安装与配置
1. 下载与解压(所有节点)
wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz tar-zxvf hadoop-3.3.6.tar.gz -C /opt /opt/hadoop-3.3.6 /opt/hadoop