Spring Boot 数据仓库与 ETL 工具集成 | 极客日志

Javajava

Spring Boot 数据仓库与 ETL 工具集成

综述由AI生成本文详解 Spring Boot 如何集成 Apache Hive 与 Apache Spark。内容涵盖数据仓库与 ETL 基础概念，演示了 pom.xml 依赖配置、JDBC 连接设置、Entity 与 Repository 层代码编写，以及 SparkSession 在 ETL 任务中的具体应用。通过示例展示了从数据抽取、转换到加载的全流程，并结合定时调度机制，帮助开发者在 Java 应用中高效构建大数据处理链路。

leon发布于 2026/3/25更新于 2026/5/139 浏览

Spring Boot 数据仓库与 ETL 工具集成

Spring Boot 数据仓库与 ETL 工具集成

在构建企业级应用时，数据仓库与 ETL（抽取、转换、加载）流程的集成往往至关重要。Spring Boot 作为 Java 生态的核心框架，能够高效地连接各类大数据组件。本文将深入探讨如何利用 Spring Boot 集成 Apache Hive 进行数据仓库操作，以及如何结合 Apache Spark 实现分布式 ETL 任务。

核心概念概览

数据仓库基础

数据仓库是用于存储和管理大量结构化数据的系统，旨在支持企业级的数据分析与决策。它提供统一的数据视图，处理复杂查询，并显著提升决策效率。常见的选择包括基于 Hadoop 的 Apache Hive、列式数据库 HBase，以及云原生的 Amazon Redshift 和 Google BigQuery。

ETL 工具简介

ETL 工具负责将数据从源系统迁移至目标仓库。其核心价值在于自动化完成数据的抽取、清洗转换与加载。在 Java 开发中，Apache Spark 提供了强大的分布式计算能力，Flink 擅长流处理，而 Airflow 则专注于任务调度，它们都能很好地融入 Spring Boot 体系。

集成 Apache Hive 实战

将 Spring Boot 与 Hive 集成，本质上是利用 JDBC 驱动建立连接，并通过 JdbcTemplate 或 MyBatis 等 ORM 框架操作数据。

1. 依赖配置

首先需要在 pom.xml 中添加 Web 启动器、Hive JDBC 驱动及 Hadoop 公共库依赖：

<dependencies>
    <!-- Web 依赖 -->
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-web</artifactId>
    </dependency>
    <!-- Hive 依赖 -->
    <dependency>
        <groupId>org.apache.hive</groupId>
        <artifactId>hive-jdbc</artifactId>
        <version>3.1.2</version>
    </dependency>
    <dependency>
        <>org.apache.hadoop
        hadoop-common
        3.3.1
    
    
    
        org.springframework.boot
        spring-boot-starter-test
        test

server.port=8080
spring.datasource.url=jdbc:hive2://localhost:10000/default
spring.datasource.driver-class-name=org.apache.hive.jdbc.HiveDriver
spring.datasource.username=hive
spring.datasource.password=

public class Product {
    private Long id;
    private String productId;
    private String productName;
    private double price;
    private int sales;

    // 构造函数、Getter/Setter 省略，实际开发建议使用 Lombok
    public Product() {}

    public Long getId() { return id; }
    public void setId(Long id) { this.id = id; }
    public String getProductId() { return productId; }
    public void setProductId(String productId) { this.productId = productId; }
    public String getProductName() { return productName; }
    public void setProductName(String productName) { this.productName = productName; }
    public double getPrice() { return price; }
    public void setPrice(double price) { this.price = price; }
    public int getSales() { return sales; }
    public void setSales(int sales) { this.sales = sales; }
}

@Repository
public class ProductRepository {
    @Autowired
    private JdbcTemplate jdbcTemplate;

    public List<Product> getAllProducts() {
        String sql = "SELECT * FROM product";
        return jdbcTemplate.query(sql, (rs, rowNum) -> {
            Product product = new Product();
            product.setId(rs.getLong("id"));
            product.setProductId(rs.getString("product_id"));
            product.setProductName(rs.getString("product_name"));
            product.setPrice(rs.getDouble("price"));
            product.setSales(rs.getInt("sales"));
            return product;
        });
    }

    public void addProduct(Product product) {
        String sql = "INSERT INTO product (product_id, product_name, price, sales) VALUES (?, ?, ?, ?)";
        jdbcTemplate.update(sql, product.getProductId(), product.getProductName(), product.getPrice(), product.getSales());
    }
    
    // updateProduct 和 deleteProduct 方法逻辑类似，此处省略
}

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_2.12</artifactId>
    <version>3.1.2</version>
</dependency>
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-sql_2.12</artifactId>
    <version>3.1.2</version>
</dependency>

spark.master=local[*]
spark.app.name=ETLExample

@Component
public class ETLJob {
    @Value("${spark.master}")
    private String master;
    
    @Value("${spark.app.name}")
    private String appName;

    public void runETL() {
        SparkSession sparkSession = SparkSession.builder()
                .master(master)
                .appName(appName)
                .getOrCreate();

        // 读取源数据
        Dataset<Row> sourceData = sparkSession.read()
                .format("csv")
                .option("header", "true")
                .option("inferSchema", "true")
                .load("src/main/resources/source-data.csv");

        // 数据转换：筛选销量大于 100 的商品
        Dataset<Row> transformedData = sourceData.select(
                sourceData.col("id"),
                sourceData.col("product_id"),
                sourceData.col("product_name"),
                sourceData.col("price"),
                sourceData.col("sales")
        ).filter(sourceData.col("sales").gt(100));

        // 写入 Hive
        Properties connectionProperties = new Properties();
        connectionProperties.put("user", "hive");
        connectionProperties.put("password", "");
        transformedData.write().mode("overwrite")
                .jdbc("jdbc:hive2://localhost:10000/default", "transformed_product", connectionProperties);

        sparkSession.stop();
    }
}

@Component
public class ETLScheduler {
    @Autowired
    private ETLJob etlJob;

    @Scheduled(cron = "0 0 0 * * ?") // 每天凌晨 0 点执行
    public void runETL() {
        etlJob.runETL();
    }

    public void runETLNow() {
        etlJob.runETL();
    }
}