Spring Boot 集成数据仓库与 ETL 工具实战 | 极客日志

Javajava算法

Spring Boot 集成数据仓库与 ETL 工具实战

Spring Boot 应用常需对接大数据生态。如何集成 Apache Hive 数据仓库与 Apache Spark ETL 工具。涵盖依赖配置、JDBC 连接、SparkSession 构建及定时任务调度等核心步骤。通过实际代码示例展示从数据抽取到加载的完整流程，帮助开发者在 Java 项目中实现高效的数据处理架构。

鲜活发布于 2026/3/29更新于 2026/4/252 浏览

Spring Boot 集成数据仓库与 ETL 工具实战

Spring Boot 集成数据仓库与 ETL 工具实战

在现代企业级应用中，Spring Boot 往往需要与大数据生态对接。无论是构建数据仓库还是执行 ETL（抽取、转换、加载）任务，掌握如何将这些组件无缝集成到 Java 项目中都至关重要。

核心概念速览

数据仓库是用于存储和管理大量结构化数据的系统，旨在支持复杂的企业分析决策。常见的如 Apache Hive（基于 Hadoop）、Amazon Redshift 或 Google BigQuery。它们提供了统一的数据视图，让分析更高效。

ETL 工具则负责将数据从源系统搬运并清洗后存入仓库。Apache Spark 和 Flink 是处理大规模数据的流行选择，而 Airflow 常用于调度任务。在 Spring Boot 中集成这些工具，意味着我们可以在业务层直接触发数据处理逻辑。

集成 Apache Hive 数据仓库

要将 Spring Boot 与 Hive 连接，关键在于配置 JDBC 驱动和数据源。下面是一个完整的实践流程。

1. 依赖配置

在 pom.xml 中引入 Web 启动器、Hive JDBC 驱动以及 Hadoop 通用库：

<dependencies>
    <!-- Web 依赖 -->
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-web</artifactId>
    </dependency>
    <!-- Hive 依赖 -->
    <dependency>
        <groupId>org.apache.hive</groupId>
        <artifactId>hive-jdbc</artifactId>
        <version>3.1.2</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        hadoop-common
        3.3.1
    
    
    
        org.springframework.boot
        spring-boot-starter-test
        test

server.port=8080
spring.datasource.url=jdbc:hive2://localhost:10000/default
spring.datasource.driver-class-name=org.apache.hive.jdbc.HiveDriver
spring.datasource.username=hive
spring.datasource.password=

public class Product {
    private Long id;
    private String productId;
    private String productName;
    private double price;
    private int sales;

    // 构造方法、Getter/Setter 省略...
    public Product(Long id, String productId, String productName, double price, int sales) {
        this.id = id;
        this.productId = productId;
        this.productName = productName;
        this.price = price;
        this.sales = sales;
    }
}

@Repository
public class ProductRepository {
    @Autowired
    private JdbcTemplate jdbcTemplate;

    public List<Product> getAllProducts() {
        String sql = "SELECT * FROM product";
        return jdbcTemplate.query(sql, (rs, rowNum) -> {
            Product product = new Product();
            product.setId(rs.getLong("id"));
            product.setProductId(rs.getString("product_id"));
            product.setProductName(rs.getString("product_name"));
            product.setPrice(rs.getDouble("price"));
            product.setSales(rs.getInt("sales"));
            return product;
        });
    }

    public void addProduct(Product product) {
        String sql = "INSERT INTO product (product_id, product_name, price, sales) VALUES (?, ?, ?, ?)";
        jdbcTemplate.update(sql, product.getProductId(), product.getProductName(), product.getPrice(), product.getSales());
    }

    // updateProduct 和 deleteProduct 逻辑类似，此处省略
}

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_2.12</artifactId>
    <version>3.1.2</version>
</dependency>
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-sql_2.12</artifactId>
    <version>3.1.2</version>
</dependency>

spark.master=local[*]
spark.app.name=ETLExample

@Component
public class ETLJob {
    @Value("${spark.master}")
    private String master;

    @Value("${spark.app.name}")
    private String appName;

    public void runETL() {
        SparkSession sparkSession = SparkSession.builder()
                .master(master)
                .appName(appName)
                .getOrCreate();

        // 读取源数据
        Dataset<Row> sourceData = sparkSession.read()
                .format("csv")
                .option("header", "true")
                .option("inferSchema", "true")
                .load("src/main/resources/source-data.csv");

        // 数据转换：筛选销量大于 100 的商品
        Dataset<Row> transformedData = sourceData.select(
                sourceData.col("id"),
                sourceData.col("product_id"),
                sourceData.col("product_name"),
                sourceData.col("price"),
                sourceData.col("sales")
        ).filter(sourceData.col("sales").gt(100));

        // 写入目标 Hive 表
        Properties connectionProperties = new Properties();
        connectionProperties.put("user", "hive");
        connectionProperties.put("password", "");
        
        transformedData.write().mode("overwrite")
                .jdbc("jdbc:hive2://localhost:10000/default", "transformed_product", connectionProperties);
        
        sparkSession.stop();
    }
}

@Component
public class ETLScheduler {
    @Autowired
    private ETLJob etlJob;

    @Scheduled(cron = "0 0 0 * * ?") // 每天凌晨 0 点
    public void runETL() {
        etlJob.runETL();
    }

    public void runETLNow() {
        etlJob.runETL();
    }
}