配置 Spark SQL 访问 Hive 元数据

Spark SQL 要查询 Hive 表，需要共用元数据库。配置步骤包括拷贝 hive-site.xml、加载 MySQL 驱动、启动 spark-shell 或 spark-sql，以及利用 Thrift Server 提供 JDBC 连接。注意 Spark SQL 内部绑定 Hive 1.2.1，元数据只存位置不存数据，Thrift Server 不支持并发查询。

Eee_123发布于 2026/6/300 浏览

在实际工作中，Spark SQL 经常需要直接查询 Hive 中已有的表，这时就要打通二者的元数据。从 Spark 1.4.0 开始，配置变得很简单，不过有几点需要留意。

注意，Spark SQL 内部会强制反编译 Hive 的某些依赖到 1.2.1 版本，所以不管你安装的 Hive 是哪个版本，当 Spark 调用 serdes、UDFs 等内部操作时，用的都是 Hive 1.2.1 的 class。这点在你以后遇到奇怪的版本兼容问题时可能会想起来。

共用一套元数据库

Spark SQL 可以自己管理元数据，不一定需要启动 Hive 服务，只要有元数据库就行。但如果你希望表结构和 HDFS 文件路径的关系持久化下来，那还是得借助 Hive metastore。通常的做法是把 Hive 的配置拷到 Spark 里，然后 Spark 程序就能自动读取元数据了。

把 hive-site.xml 放到 $SPARK_HOME/conf 下，内容类似这样：

<configuration>
  <property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://192.168.19.131:3306/hivedb?createDatabaseIfNotExist=true</value>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>com.mysql.jdbc.Driver</value>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionUserName</name>
    <value>root</value>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionPassword</name>
    hadoop

相关免费在线工具

Keycode 信息
查找任何按下的键的javascript键代码、代码、位置和修饰符。在线工具，Keycode 信息在线工具，online
Escape 与 Native 编解码
JavaScript 字符串转义/反转义；Java 风格 \uXXXX（Native2Ascii）编码与解码。在线工具，Escape 与 Native 编解码在线工具，online
JavaScript / HTML 格式化
使用 Prettier 在浏览器内格式化 JavaScript 或 HTML 片段。在线工具，JavaScript / HTML 格式化在线工具，online
JavaScript 压缩与混淆
Terser 压缩、变量名混淆，或 javascript-obfuscator 高强度混淆（体积会增大）。在线工具，JavaScript 压缩与混淆在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online

bin/spark-shell \
  --master spark://spark-master:7077 \
  --executor-memory 512m \
  --total-executor-cores 2 \
  --driver-class-path /path/to/mysql-connector-java-5.1.35-bin.jar

bin/spark-shell \
  --master yarn \
  --executor-memory 512m \
  --total-executor-cores 2 \
  --driver-class-path /path/to/mysql-connector-java-5.1.35-bin.jar

val rdd = sqlContext.sql("select * from default.person limit 2")
rdd.write.json("hdfs://192.168.19.131:9000/personresult")

import org.apache.spark.sql.hive.HiveContext
val hiveContext = new HiveContext(sc)
hiveContext.sql("select * from default.person")

bin/spark-sql \
  --master spark://spark-master:7077 \
  --executor-memory 512m \
  --total-executor-cores 3 \
  --driver-class-path /path/to/mysql-connector-java-5.1.35-bin.jar

select * from default.person limit 2

./sbin/start-thriftserver.sh --jars /path/to/mysql-connector-java-5.1.35-bin.jar --master yarn

./bin/beeline
beeline> !connect jdbc:hive2://localhost:10000

<dependency>
  <groupId>org.apache.hive</groupId>
  <artifactId>hive-jdbc</artifactId>
  <version>1.2.1</version>
</dependency>
<dependency>
  <groupId>org.apache.hadoop</groupId>
  <artifactId>hadoop-common</artifactId>
  <version>2.4.1</version>
</dependency>
<dependency>
  <groupId>jdk.tools</groupId>
  <artifactId>jdk.tools</artifactId>
  <version>1.6</version>
  <scope>system</scope>
  <systemPath>${JAVA_HOME}/lib/tools.jar</systemPath>
</dependency>

import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.sql.Statement;

public class Test1 {
  public static void main(String[] args) throws SQLException {
    String url = "jdbc:hive2://192.168.19.131:10000/default";
    try {
      Class.forName("org.apache.hive.jdbc.HiveDriver");
    } catch (ClassNotFoundException e) {
      e.printStackTrace();
    }
    Connection conn = DriverManager.getConnection(url, "hadoop", "");
    Statement stmt = conn.createStatement();
    String sql = "SELECT * FROM person LIMIT 10";
    ResultSet res = stmt.executeQuery(sql);
    while(res.next()){
      System.out.println("id: "+res.getInt(1)+"\tname: "+res.getString(2)+"\tage:" + res.getInt(3));
    }
  }
}

配置 Spark SQL 访问 Hive 元数据

共用一套元数据库

更多推荐文章

相关免费在线工具

Thrift JDBC/ODBC Server

Java 代码里通过 JDBC 连接

更多推荐文章

相关免费在线工具

配置 Spark SQL 访问 Hive 元数据

共用一套元数据库

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

Thrift JDBC/ODBC Server

Java 代码里通过 JDBC 连接

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具