Hadoop 安装与使用指南
一、Linux 虚拟机准备
本文基于 Ubuntu Kylin 16.04 LTS 进行演示。相比新版,该版本对虚拟机资源消耗更低,运行更流畅,适合实验环境。推荐使用 VMware 作为虚拟化软件,其易用性优于 VirtualBox。
二、创建 Hadoop 用户
如果安装 Ubuntu 时未使用 hadoop 用户,建议新建一个专门用于大数据开发的用户。
首先创建新用户并指定 Shell:
sudo useradd -m hadoop -s /bin/bash
设置密码(可简单设为 hadoop):
sudo passwd hadoop
为便于后续部署,将用户加入 sudo 组赋予管理员权限:
sudo adduser hadoop sudo
三、系统更新与工具安装
切换到 hadoop 用户登录后,先更新软件源,确保能顺利安装依赖:
sudo apt-get update
安装 Vim 编辑器以便修改配置文件:
sudo apt-get install vim
安装过程中若提示确认,输入 y 即可。
四、SSH 无密码登录配置
SSH 简介与作用
SSH(Secure Shell)是建立在应用层和传输层基础上的安全协议,用于远程登录和其他网络服务。在 Hadoop 集群中,NameNode 需要通过 SSH 启动所有节点的守护进程,而 Hadoop 本身不支持交互式密码输入,因此必须配置免密登录。
安装与配置步骤
Ubuntu 默认已安装 SSH 客户端,只需安装服务端:
sudo apt-get install openssh-server
测试连接本机:
ssh localhost
首次连接会提示确认指纹,输入 yes 后需输入密码。为了后续自动化管理,我们需要生成密钥并配置免密:
exit
cd ~/.ssh
ssh-keygen -t rsa
cat ./id_rsa.pub >> ./authorized_keys
再次执行 ssh localhost 即可无需密码直接登录。
五、Java 环境搭建
Hadoop 基于 Java 开发,运行需要 JDK 支持。Hadoop 3.3.5 要求 JDK 1.8 或更高版本。
假设下载的文件为 jdk-8u371-linux-x64.tar.gz 并位于 /home/hadoop/Downloads/。
创建目录并解压:
/usr/lib
jvm
~
Downloads
tar -zxvf ./jdk-8u371-linux-x64.tar.gz -C /usr/lib/jvm


