Spring Boot 数据仓库与 ETL 工具集成实战 | 极客日志

Javajava

Spring Boot 数据仓库与 ETL 工具集成实战

Spring Boot 数据仓库与 ETL 工具集成涉及 Hive 存储管理与 Spark 数据处理流程。通过配置 JDBC 连接与 Maven 依赖，可实现 Java 应用对大数据组件的直接访问。示例涵盖产品数据 CRUD 及定时 ETL 任务调度，强调实际开发中的依赖版本匹配与资源管理策略。

AiEngineer发布于 2026/3/260 浏览

Spring Boot 数据仓库与 ETL 工具集成实战

Spring Boot 数据仓库与 ETL 工具集成实战

集成示意图

在构建企业级 Java 应用时，我们经常需要对接大数据生态。Spring Boot 凭借其自动配置特性，能很好地与数据仓库（如 Hive）和 ETL 工具（如 Spark）协作。本文将结合实际代码，梳理集成的核心步骤与注意事项。

核心概念回顾

数据仓库主要用于存储和管理海量结构化数据，支持复杂分析决策。常见的选择包括基于 Hadoop 的 Apache Hive、HBase，以及云原生的 Amazon Redshift、Google BigQuery。它们提供了统一的数据视图，是数据分析的基石。

ETL 工具负责数据的抽取（Extract）、转换（Transform）和加载（Load）。Apache Spark 适合大规模批处理，Flink 擅长流处理，Airflow 则用于任务调度。在 Spring Boot 中集成这些组件，通常是为了让业务系统具备数据处理能力。

集成 Apache Hive：数据访问层实现

将 Spring Boot 接入 Hive 的核心在于 JDBC 驱动的配置。我们不需要引入复杂的 ORM 框架，直接使用 JdbcTemplate 往往更轻量高效。

1. Maven 依赖配置

确保版本兼容性是关键，特别是 Hadoop 与 Hive 的版本对应关系。

<dependencies>
    <!-- Web 基础 -->
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-web</artifactId>
    </dependency>
    
    <!-- Hive JDBC 驱动 -->
    <dependency>
        <groupId>org.apache.hive</groupId>
        <artifactId>hive-jdbc</artifactId>
        <version>3.1.2</version>
    
    
    
    
        org.apache.hadoop
        hadoop-common
        3.3.1
    
    
    
    
        org.springframework.boot
        spring-boot-starter-test
        test

server.port=8080
# Hive 连接信息
spring.datasource.url=jdbc:hive2://localhost:10000/default
spring.datasource.driver-class-name=org.apache.hive.jdbc.HiveDriver
spring.datasource.username=hive
spring.datasource.password=

public class Product {
    private Long id;
    private String productId;
    private String productName;
    private double price;
    private int sales;

    // 构造方法、Getter/Setter 省略，实际开发建议使用 Lombok
    public Product() {}
    
    public Long getId() { return id; }
    public void setId(Long id) { this.id = id; }
    // ... 其他字段 getter/setter
}

@Repository
public class ProductRepository {
    @Autowired
    private JdbcTemplate jdbcTemplate;

    public List<Product> getAllProducts() {
        String sql = "SELECT * FROM product";
        return jdbcTemplate.query(sql, (rs, rowNum) -> {
            Product p = new Product();
            p.setId(rs.getLong("id"));
            p.setProductId(rs.getString("product_id"));
            p.setProductName(rs.getString("product_name"));
            p.setPrice(rs.getDouble("price"));
            p.setSales(rs.getInt("sales"));
            return p;
        });
    }

    public void addProduct(Product product) {
        String sql = "INSERT INTO product (product_id, product_name, price, sales) VALUES (?, ?, ?, ?)";
        jdbcTemplate.update(sql, product.getProductId(), product.getProductName(), product.getPrice(), product.getSales());
    }
    
    // updateProduct, deleteProduct 等 CRUD 方法类似实现
}

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_2.12</artifactId>
    <version>3.1.2</version>
</dependency>
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-sql_2.12</artifactId>
    <version>3.1.2</version>
</dependency>

spark.master=local[*]
spark.app.name=ETLExample

@Component
public class ETLJob {
    @Value("${spark.master}")
    private String master;

    @Value("${spark.app.name}")
    private String appName;

    public void runETL() {
        SparkSession sparkSession = SparkSession.builder()
                .master(master)
                .appName(appName)
                .getOrCreate();

        try {
            // 读取源数据
            Dataset<Row> sourceData = sparkSession.read()
                    .format("csv")
                    .option("header", "true")
                    .option("inferSchema", "true")
                    .load("src/main/resources/source-data.csv");

            // 数据转换：筛选销量大于 100 的商品
            Dataset<Row> transformedData = sourceData.filter(sourceData.col("sales").gt(100))
                    .select(sourceData.col("id"), sourceData.col("product_id"), 
                            sourceData.col("product_name"), sourceData.col("price"), sourceData.col("sales"));

            // 写入目标 Hive 表
            Properties connectionProperties = new Properties();
            connectionProperties.put("user", "hive");
            connectionProperties.put("password", "");
            
            transformedData.write().mode("overwrite")
                    .jdbc("jdbc:hive2://localhost:10000/default", "transformed_product", connectionProperties);
        } finally {
            sparkSession.stop();
        }
    }
}

@Component
public class ETLScheduler {
    @Autowired
    private ETLJob etlJob;

    @Scheduled(cron = "0 0 0 * * ?") // 每天凌晨 0 点
    public void runETL() {
        etlJob.runETL();
    }

    public void runETLNow() {
        etlJob.runETL();
    }
}

@SpringBootApplication
@EnableScheduling
public class ETLApplication {
    public static void main(String[] args) {
        SpringApplication.run(ETLApplication.class, args);
    }
}