Hive 0.7.1 安装指南(Ubuntu Server + Hadoop)
本文记录在 Ubuntu Server 环境下部署 Hive 0.7.1 伪分布式模式的完整过程,包含环境准备、配置细节及常见错误排查。
前置环境要求
确保以下组件已就绪:
- 操作系统:Ubuntu Server 11.04
- JDK:1.6.27
- Hadoop:0.20.2(需已启动并正常运行)
目录初始化
Hive 需要特定的临时目录和数据存储路径。请在 Hadoop 中执行以下命令创建并设置权限:
hadoop fs -mkdir /tmp
hadoop fs -mkdir /user/hive/warehouse
hadoop fs chmod g+w /tmp
hadoop fs chmod g+w /user/hive/warehouse
其中 /user/hive/warehouse 用于存放由 Hive 管理的数据文件。
安装步骤
1. 下载与解压
获取安装包 hive-0.7.1-bin.tar.gz 后解压至目标目录:
tar -xzvf hive-0.7.1-bin.tar.gz
2. 环境变量配置
编辑用户配置文件 ~/.bashrc,在末尾追加以下内容(请替换为实际解压路径):
export HIVE_HOME=/path/to/hive-0.7.1
export PATH=${HIVE_HOME}/bin:${PATH}
保存后使配置生效:
source ~/.bashrc
此时输入 hive 应能进入 Shell 界面。
3. 常见问题排查
初次运行时可能会遇到类加载错误,通常是因为缺少 JLine 库支持。如果启动时报错,请检查 hadoop-env.sh 配置。
解决方案:
在 hadoop-0.20.2/conf/hadoop-env.sh 中添加 JLine 库路径到 HADOOP_CLASSPATH:
export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:/home/hadoop/hadoop/hadoop-0.20.2/lib:/home/hadoop/hadoop/hive-0.7.1/lib/jline-0.9.94.jar
修改后重新执行 hive 即可正常启动。值得注意的是,部分版本在后续更新中可能自动处理了该依赖,若注释掉上述配置仍能运行,说明环境已兼容,但保留配置更为稳妥。
基本使用示例
Hive 默认配置文件位于 <install-dir>/conf/hive-default.xml。如需自定义参数,建议新建 hive-site.xml,其中的属性会覆盖默认配置。
执行查询时,可参考标准测试用例。例如加载数据表或进行简单的聚合统计,具体操作取决于实际业务场景。


