Docker 部署分布式 Hadoop 实战 | 极客日志

Javajava

Docker 部署分布式 Hadoop 实战

使用 Docker 在 CentOS 7 环境下部署分布式 Hadoop 集群的完整流程。涵盖基础镜像制作、JDK 与 Hadoop 安装配置、SSH 免密设置、HDFS 与 YARN 组件配置及集群启动验证。通过容器化技术模拟多节点环境，实现快速搭建与复用，适用于大数据学习与实验场景。

t ag发布于 2026/3/24更新于 2026/5/1229 浏览

Docker 部署分布式 Hadoop 实战

一：背景

在传统方式下部署 Hadoop：

需要准备多台虚拟机
手动配置网络、主机名、SSH 免密
重复安装 JDK、Hadoop
环境不可复用

而使用 Docker 的优势：

✅ 环境隔离
✅ 一台机器模拟多节点
✅ 可快速销毁重建
✅ 镜像可复用
✅ 非常适合学习与实验

在真实生产中，例如在基于 Apache Hadoop 的数据平台环境中，也常结合容器化与编排技术使用。

二：部署

1）创建基础镜像

退出容器并提交为新的镜像

[root@hadoop ~]# exit
[root@hadoop108 ~]# docker commit 容器 ID centos:hadoop
[root@hadoop108 ~]# docker images

创建软件目录

[root@hadoop ~]# mkdir -p /opt/module /opt/software

配置 SSH 服务并启动

[root@hadoop ~]# vim /etc/ssh/sshd_config Port 22 PermitRootLogin yes

[root@hadoop ~]# systemctl start sshd.service
[root@hadoop ~]# systemctl enable sshd.service
[root@hadoop ~]# systemctl status sshd.service

在容器内安装必要工具

[root@hadoop ~]# yum install -y vim net-tools openssh-server openssh-clients rsync

进入容器

[root@hadoop108 ~]# docker exec -it centos7 /bin/bash

查看运行中的容器

[root@hadoop108 ~]# docker ps

运行 CentOS 容器（带特权模式，用于启动 systemd 服务）

[root@hadoop108 ~]# docker run --privileged=true --name centos7 -h hadoop -itd centos:7 /usr/sbin/init

查看镜像列表

[root@hadoop108 ~]# docker images

搜索并拉取 CentOS 镜像

[root@hadoop108 ~]# docker search centos
[root@hadoop108 ~]# docker pull centos:7

配置 Docker 镜像加速器

[root@hadoop108 ~]# vim /etc/docker/daemon.json

{ "registry-mirrors": ["https://3iy7bctt.mirror.aliyuncs.com"] }

[root@hadoop108 ~]# systemctl daemon-reload
[root@hadoop108 ~]# systemctl restart docker
[root@hadoop108 ~]# docker info

[root@hadoop108 ~]# systemctl status docker

[root@hadoop108 ~]# systemctl enable docker

[root@hadoop108 ~]# systemctl start docker

[root@hadoop108 ~]# yum install -y docker

[root@hadoop108 ~]# uname -r
3.10.0-862.el7.x86_64

[root@slave01 ~]# vim /etc/profile
# JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_144
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin
# HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

[root@slave01 ~]# source /etc/profile

[root@master ~]# scp -r /opt/module/jdk1.8.0_144/ root@slave01:/opt/module/
[root@master ~]# scp -r /opt/module/jdk1.8.0_144/ root@slave02:/opt/module/
[root@master ~]# scp -r /opt/module/hadoop-2.7.2/ root@slave01:/opt/module/
[root@master ~]# scp -r /opt/module/hadoop-2.7.2/ root@slave02:/opt/module/

export JAVA_HOME=/opt/module/jdk1.8.0_144

<property> <name>mapreduce.framework.name</name> <value>yarn</value> </property>

<property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property>
<property> <name>yarn.resourcemanager.hostname</name> <value>slave01</value> </property>

export JAVA_HOME=/opt/module/jdk1.8.0_144

master slave01 slave02

<property> <name>dfs.replication</name> <value>3</value> </property>
<property> <name>dfs.namenode.secondary.http-address</name> <value>slave02:50090</value> </property>
<property> <name>dfs.permissions.enabled</name> <value>false</value> </property>

export JAVA_HOME=/opt/module/jdk1.8.0_144

<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property>
<property> <name>hadoop.tmp.dir</name> <value>/opt/module/hadoop-2.7.2/data/tmp</value> </property>
</configuration>

[root@master ~]# cd /opt/module/hadoop-2.7.2/etc/hadoop

[root@master ~]# tar -xzvf /opt/software/hadoop-2.7.2.tar.gz -C /opt/module/

[root@master ~]# vim /etc/profile
# HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

[root@master ~]# source /etc/profile
[root@master ~]# hadoop version

[root@master ~]# tar -xzvf /opt/software/jdk-8u144-linux-x64.tar.gz -C /opt/module/

[root@master ~]# vim /etc/profile
# JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_144
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin

[root@master ~]# source /etc/profile
[root@master ~]# java -version

[root@hadoop108 ~]# docker cp jdk-8u144-linux-x64.tar.gz master:/opt/software
[root@hadoop108 ~]# docker cp hadoop-2.7.2.tar.gz master:/opt/software

[root@master ~]# ssh-keygen -t rsa
[root@master ~]# ssh-copy-id master
[root@master ~]# ssh-copy-id slave01
[root@master ~]# ssh-copy-id slave02

[root@master ~]# passwd root
[root@slave01 ~]# passwd root
[root@slave02 ~]# passwd root

[root@master ~]# vim /etc/hosts
172.17.0.3 master
172.17.0.4 slave01
172.17.0.5 slave02

[root@hadoop108 ~]# docker run --privileged=true --name master -h master -p 50070:50070 -itd centos:hadoop /usr/sbin/init
[root@hadoop108 ~]# docker run --privileged=true --name slave01 -h slave01 -p 8088:8088 -itd centos:hadoop /usr/sbin/init
[root@hadoop108 ~]# docker run --privileged=true --name slave02 -h slave02 -itd centos:hadoop /usr/sbin/init

[root@slave01 ~]# start-yarn.sh

[root@master ~]# hdfs namenode -format
[root@master ~]# start-dfs.sh

[root@hadoop108 ~]# docker commit master centos:master
[root@hadoop108 ~]# docker commit slave01 centos:slave01
[root@hadoop108 ~]# docker commit slave02 centos:slave02

[root@slave01 ~]# stop-yarn.sh
[root@master ~]# stop-dfs.sh