Spring Boot 数据仓库与 ETL 工具集成实践 | 极客日志

Javajava

Spring Boot 数据仓库与 ETL 工具集成实践

综述由AI生成Spring Boot 与数据仓库及 ETL 工具的集成是构建企业级数据处理应用的关键环节。详细阐述了如何配置 Maven 依赖、设置数据源属性，并通过 JdbcTemplate 实现与 Hive 的 CRUD 交互。针对大数据场景，介绍了如何在 Spring Boot 中嵌入 Spark Session 执行 ETL 任务，并利用 @Scheduled 注解实现定时调度。内容涵盖依赖管理、代码实现及最佳实践，帮助开发者高效完成数据链路搭建。

PhpPioneer发布于 2026/3/26更新于 2026/4/264 浏览

Spring Boot 数据仓库与 ETL 工具集成实践

Spring Boot 数据仓库与 ETL 工具集成实践

架构图

在构建企业级应用时，将 Spring Boot 与数据仓库及 ETL（抽取、转换、加载）工具结合使用是非常常见的需求。这不仅能利用 Spring Boot 的便捷性快速搭建服务层，还能借助成熟的大数据处理组件处理海量数据。本文将深入探讨两者的集成方式、配置细节以及实际应用场景。

核心概念回顾

数据仓库主要用于存储和管理大量结构化数据，支持复杂的企业级分析决策。常见的选择包括基于 Hadoop 的 Apache Hive、列式数据库 HBase，以及云原生的 Amazon Redshift 和 Google BigQuery。

ETL 工具则负责数据的流动，从源系统抽取数据，经过清洗转换后加载到目标端。Apache Spark 和 Flink 是强大的分布式计算框架，而 Airflow 常用于调度任务，Talend 则是经典的图形化 ETL 解决方案。

集成 Apache Hive 数据仓库

通过 JDBC 连接 Hive 是 Spring Boot 中最直接的集成方式。我们需要引入相应的驱动依赖，并配置数据源。

1. 依赖配置

在 pom.xml 中添加 Web 启动器、Hive JDBC 驱动以及 Hadoop 公共库：

<dependencies>
    <!-- Web 依赖 -->
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-web</artifactId>
    </dependency>
    <!-- Hive 依赖 -->
    <dependency>
        <groupId>org.apache.hive</groupId>
        <artifactId>hive-jdbc</artifactId>
        <version>3.1.2</version>
    </>
    
        org.apache.hadoop
        hadoop-common
        3.3.1
    
    
    
        org.springframework.boot
        spring-boot-starter-test
        test

# 服务器端口
server.port=8080
# Hive 连接信息
spring.datasource.url=jdbc:hive2://localhost:10000/default
spring.datasource.driver-class-name=org.apache.hive.jdbc.HiveDriver
spring.datasource.username=hive
spring.datasource.password=

public class Product {
    private Long id;
    private String productId;
    private String productName;
    private double price;
    private int sales;

    public Product() {}

    public Product(Long id, String productId, String productName, double price, int sales) {
        this.id = id;
        this.productId = productId;
        this.productName = productName;
        this.price = price;
        this.sales = sales;
    }

    // Getter and Setter methods
    public Long getId() { return id; }
    public void setId(Long id) { this.id = id; }
    public String getProductId() { return productId; }
    public void setProductId(String productId) { this.productId = productId; }
    public String getProductName() { return productName; }
    public void setProductName(String productName) { this.productName = productName; }
    public double getPrice() { return price; }
    public void setPrice(double price) { this.price = price; }
    public int getSales() { return sales; }
    public void setSales(int sales) { this.sales = sales; }

    @Override
    public String toString() {
        return "Product{" +
                "id=" + id +
                ", productId='" + productId + '\'' +
                ", productName='" + productName + '\'' +
                ", price=" + price +
                ", sales=" + sales +
                '}';
    }
}

@Repository
public class ProductRepository {
    @Autowired
    private JdbcTemplate jdbcTemplate;

    public List<Product> getAllProducts() {
        String sql = "SELECT * FROM product";
        return jdbcTemplate.query(sql, (rs, rowNum) -> {
            Product product = new Product();
            product.setId(rs.getLong("id"));
            product.setProductId(rs.getString("product_id"));
            product.setProductName(rs.getString("product_name"));
            product.setPrice(rs.getDouble("price"));
            product.setSales(rs.getInt("sales"));
            return product;
        });
    }

    public Product getProductById(Long id) {
        String sql = "SELECT * FROM product WHERE id = ?";
        return jdbcTemplate.queryForObject(sql, new Object[]{id}, (rs, rowNum) -> {
            Product product = new Product();
            product.setId(rs.getLong("id"));
            product.setProductId(rs.getString("product_id"));
            product.setProductName(rs.getString("product_name"));
            product.setPrice(rs.getDouble("price"));
            product.setSales(rs.getInt("sales"));
            return product;
        });
    }

    public void addProduct(Product product) {
        String sql = "INSERT INTO product (product_id, product_name, price, sales) VALUES (?, ?, ?, ?)";
        jdbcTemplate.update(sql, product.getProductId(), product.getProductName(), product.getPrice(), product.getSales());
    }

    public void updateProduct(Product product) {
        String sql = "UPDATE product SET product_id = ?, product_name = ?, price = ?, sales = ? WHERE id = ?";
        jdbcTemplate.update(sql, product.getProductId(), product.getProductName(), product.getPrice(), product.getSales(), product.getId());
    }

    public void deleteProduct(Long id) {
        String sql = "DELETE FROM product WHERE id = ?";
        jdbcTemplate.update(sql, id);
    }
}

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_2.12</artifactId>
    <version>3.1.2</version>
</dependency>
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-sql_2.12</artifactId>
    <version>3.1.2</version>
</dependency>

server.port=8080
spark.master=local[*]
spark.app.name=ETLExample

@Component
public class ETLJob {
    @Value("${spark.master}")
    private String master;

    @Value("${spark.app.name}")
    private String appName;

    public void runETL() {
        SparkSession sparkSession = SparkSession.builder()
                .master(master)
                .appName(appName)
                .getOrCreate();

        try {
            // 读取源数据
            Dataset<Row> sourceData = sparkSession.read()
                    .format("csv")
                    .option("header", "true")
                    .option("inferSchema", "true")
                    .load("src/main/resources/source-data.csv");

            // 数据转换：筛选销售额大于 100 的记录
            Dataset<Row> transformedData = sourceData.select(
                    sourceData.col("id"),
                    sourceData.col("product_id"),
                    sourceData.col("product_name"),
                    sourceData.col("price"),
                    sourceData.col("sales")
            ).filter(sourceData.col("sales").gt(100));

            // 写入目标数据仓库
            Properties connectionProperties = new Properties();
            connectionProperties.put("user", "hive");
            connectionProperties.put("password", "");
            transformedData.write().mode("overwrite")
                    .jdbc("jdbc:hive2://localhost:10000/default", "transformed_product", connectionProperties);
        } finally {
            sparkSession.stop();
        }
    }
}

@Component
public class ETLScheduler {
    @Autowired
    private ETLJob etlJob;

    // 每天凌晨 0 点执行
    @Scheduled(cron = "0 0 0 * * ?")
    public void runETL() {
        etlJob.runETL();
    }

    public void runETLNow() {
        etlJob.runETL();
    }
}

@SpringBootApplication
@EnableScheduling
public class ETLApplication {
    public static void main(String[] args) {
        SpringApplication.run(ETLApplication.class, args);
    }
}