ETL 架构演进：从批处理到实时流处理实战 | 极客日志

Javajava算法

ETL 架构演进：从批处理到实时流处理实战

综述由AI生成本文深入探讨了 ETL 架构从传统批处理向实时流处理的演进路径。内容涵盖 Sqoop 与 Spark 批处理方案的实现细节，重点分析了 Flink 在实时计算中的低延迟优势及状态管理机制。同时对比了 Lambda 与 Kappa 两种主流架构模式的优劣，提供了具体的代码示例与工具选型建议，帮助工程师根据业务时效性需求选择合适的技术方案。

小熊软糖发布于 2026/4/9更新于 2026/5/2310 浏览

ETL 概述

ETL（Extract-Transform-Load）是数据仓库构建的核心环节，负责将分散的数据源汇聚、清洗并加载到目标存储中。

数据源 → Extract → Transform → Load → 数据仓库

传统批处理模式在实际业务中逐渐暴露出一些瓶颈：

延迟高：通常是 T+1 甚至更久，无法满足实时决策需求
资源波动大：处理时间长，容易在夜间形成资源峰值
容错难：一旦任务失败，排查和重跑成本较高

批处理 ETL 方案

Sqoop 与 HDFS 交互

Sqoop 是早期常用的数据库与 Hadoop 生态之间的桥梁工具。它支持全量和增量导入，配置相对简单。

# 全量导入示例
sqoop import \
--connect jdbc:mysql://mysql:3306/order_db \
--username root \
--password password \
--table orders \
--target-dir /data/orders \
--delete-target-dir \
--num-mappers 4 \
--fields-terminated-by ','

# 增量导入示例
sqoop import \
--connect jdbc:mysql://mysql:3306/order_db \
--username root \
--password password \
--table orders \
--target-dir /data/orders \
--incremental append \
--check-column order_id \
--last-value 10000 \
--num-mappers 2

Spark Batch ETL

随着大数据计算引擎的发展，Spark 成为了批处理的主流选择。利用 PySpark 可以方便地编写转换逻辑。

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, avg, sum, count

spark = SparkSession.builder \
    .appName("DailyOrderETL") \
    .getOrCreate()

# 读取数据
orders_df = spark.read \
    .format("jdbc") \
    .option("url", "jdbc:mysql://mysql:3306/order_db") \
    .option("dbtable", "orders") \
    .option("user", "root") \
    .option("password", "password").load()

order_items_df = spark.read \
    .format("jdbc") \
    .option("url", ) \
    .option(, ) \
    .option(, ) \
    .option(, ).load()


daily_stats = orders_df \
    .(col() == ) \
    .join(order_items_df, orders_df.order_id == order_items_df.order_id) \
    .groupBy(, ) \
    .agg(
        count().alias(),
        ().alias(),
        avg().alias()
    )


daily_stats.write \
    .() \
    .mode() \
    .partitionBy() \
    .saveAsTable()

相关免费在线工具

Keycode 信息
查找任何按下的键的javascript键代码、代码、位置和修饰符。在线工具，Keycode 信息在线工具，online
Escape 与 Native 编解码
JavaScript 字符串转义/反转义；Java 风格 \uXXXX（Native2Ascii）编码与解码。在线工具，Escape 与 Native 编解码在线工具，online
JavaScript / HTML 格式化
使用 Prettier 在浏览器内格式化 JavaScript 或 HTML 片段。在线工具，JavaScript / HTML 格式化在线工具，online
JavaScript 压缩与混淆
Terser 压缩、变量名混淆，或 javascript-obfuscator 高强度混淆（体积会增大）。在线工具，JavaScript 压缩与混淆在线工具，online
加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online

from pyspark.sql.functions import regexp_replace, to_timestamp

def clean_data(df):
    # 去除重复行
    df = df.dropDuplicates()
    
    # 处理空值，填充默认值
    df = df.fillna({"phone": "UNKNOWN", "address": "UNKNOWN"})
    
    # 数据标准化，例如手机号只保留数字
    df = df.withColumn("phone", regexp_replace(col("phone"), "[^0-9]", ""))
    df = df.withColumn("order_time", to_timestamp(col("order_time"), "yyyy-MM-dd HH:mm:ss"))
    
    # 异常值处理，过滤不合理金额
    df = df.filter((col("amount") > 0) & (col("amount") < 1000000))
    return df

public class FlinkWordCount {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(2);

        // 读取数据源
        DataStream<String> text = env.socketTextStream("localhost", 9999);

        // 转换和聚合
        DataStream<WordCount> counts = text
            .flatMap((line, out) -> {
                for (String word : line.split("\\s")) {
                    out.collect(new WordCount(word, 1));
                }
            })
            .keyBy("word")
            .window(TumblingProcessingTimeWindows.of(Time.seconds(10)))
            .sum("count");

        // 输出
        counts.print();
        env.execute("WordCount");
    }
}

public class KafkaToHiveETL {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.enableCheckpointing(60000); // 每分钟检查点
        env.getCheckpointConfig().setMinPauseBetweenCheckpoints(30000);

        KafkaSource<String> source = KafkaSource.<String>builder()
            .setBootstrapServers("kafka:9092")
            .setGroupId("order-etl-consumer")
            .setTopics("orders")
            .setValueOnlyDeserializer(new SimpleStringSchema())
            .setStartingOffsets(OffsetsInitializer.committedOffsets())
            .build();

        DataStream<String> stream = env.fromSource(source, WatermarkStrategy.noWatermarks(), "Kafka Source");

        // 解析 JSON 并过滤
        DataStream<Order> orders = stream
            .map(json -> JSON.parseObject(json, Order.class))
            .filter(order -> order.getAmount() > 0);

        // 写入 Hive
        FlinkHiveConnector.writeToHive(orders, "warehouse.orders");
        env.execute("KafkaToHiveETL");
    }
}

public class RealTimeShopStats {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        // 读取 Kafka
        DataStream<Order> orders = env.addSource(new FlinkKafkaConsumer<>("orders", new OrderDeserializationSchema(), KafkaConfig.getProperties()));

        // 实时统计：滑动窗口
        DataStream<ShopStats> stats = orders
            .keyBy(Order::getShopId)
            .window(SlidingEventTimeWindows.of(Time.minutes(5), Time.minutes(1)))
            .aggregate(new ShopStatsAggregator());

        // 输出到 Kafka（供下游消费）
        stats.addSink(new FlinkKafkaProducer<>("shop-realtime-stats", new ShopStatsSerializationSchema(), KafkaConfig.getProperties()));
        
        // 输出到 Redis（供仪表盘查询）
        stats.addSink(new RedisSink<>(redisConfig));
        
        env.execute("RealTimeShopStats");
    }
}

// 聚合器实现
public class ShopStatsAggregator implements AggregateFunction<Order, ShopStatsAccumulator, ShopStats> {
    @Override
    public ShopStatsAccumulator createAccumulator() {
        return new ShopStatsAccumulator();
    }

    @Override
    public ShopStatsAccumulator add(Order value, ShopStatsAccumulator acc) {
        acc.orderCount++;
        acc.totalAmount += value.getAmount();
        acc.maxAmount = Math.max(acc.maxAmount, value.getAmount());
        return acc;
    }

    @Override
    public ShopStats getResult(ShopStatsAccumulator acc) {
        return new ShopStats(acc.getShopId(), acc.orderCount, acc.totalAmount, 
            acc.totalAmount / acc.orderCount, acc.maxAmount);
    }

    @Override
    public ShopStatsAccumulator merge(ShopStatsAccumulator a, ShopStatsAccumulator b) {
        a.orderCount += b.orderCount;
        a.totalAmount += b.totalAmount;
        a.maxAmount = Math.max(a.maxAmount, b.maxAmount);
        return a;
    }
}

-- 批处理层 - 计算全量指标
SELECT shop_id, COUNT(*) as order_count, SUM(amount) as total_amount, MAX(amount) as max_amount 
FROM orders 
WHERE order_date >= '2023-01-01' 
GROUP BY shop_id, order_date;

-- 服务层 - 合并查询
SELECT 
    a.shop_id, 
    a.total_amount + COALESCE(b.realtime_amount, 0) as total_amount, 
    a.order_count + COALESCE(b.realtime_count, 0) as order_count 
FROM (
    SELECT shop_id, total_amount, order_count 
    FROM warehouse.shop_daily_stats_batch 
    WHERE shop_id = {shop_id} AND order_date = CURRENT_DATE - 1
) a 
LEFT JOIN (
    SELECT shop_id, SUM(total_amount) as realtime_amount, SUM(order_count) as realtime_count 
    FROM warehouse.shop_realtime_stats 
    WHERE shop_id = {shop_id} 
    GROUP BY shop_id
) b ON a.shop_id = b.shop_id;

public class KappaETL {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        // 1. 从 Kafka 读取历史数据（全量重放）
        DataStream<Order> historicalOrders = env
            .addSource(new FlinkKafkaConsumer<>("orders", new OrderDeserializationSchema(), KafkaConfig.getProperties()))
            .setStartFromEarliest();

        // 2. 从 Kafka 读取实时数据
        DataStream<Order> realtimeOrders = env.addSource(new FlinkKafkaConsumer<>("orders", new OrderDeserializationSchema(), KafkaConfig.getProperties()));

        // 3. 合并数据源
        DataStream<Order> allOrders = historicalOrders.union(realtimeOrders);

        // 4. 流处理计算
        DataStream<ShopStats> stats = allOrders
            .keyBy(Order::getShopId)
            .window(SlidingEventTimeWindows.of(Time.minutes(5), Time.minutes(1)))
            .aggregate(new ShopStatsAggregator());

        // 5. 输出结果
        stats.addSink(new RedisSink<>(redisConfig));
        env.execute("KappaETL");
    }
}

工具	类型	优点	缺点	适用场景
Sqoop	批处理	简单易用	功能单一	数据库↔HDFS
DataX	批处理	跨数据源	无流处理	离线同步
Flink	流处理	功能强大	复杂度高	实时 ETL
Spark Streaming	流处理	与 Spark 集成	延迟较高	近实时
Kafka Streams	流处理	轻量级	功能有限	简单流处理

ETL 架构演进：从批处理到实时流处理实战

ETL 概述

批处理 ETL 方案

Sqoop 与 HDFS 交互

Spark Batch ETL

更多推荐文章

相关免费在线工具

数据清洗策略

实时流处理 ETL

Flink 实时优势

WordCount 基础示例

实时数据同步

实时聚合

Lambda 架构设计

架构分层

实现示例

Kappa 架构演进

核心思想

全量历史重计算

工具选型对比

总结与建议

更多推荐文章

相关免费在线工具

ETL 架构演进：从批处理到实时流处理实战

ETL 概述

批处理 ETL 方案

Sqoop 与 HDFS 交互

Spark Batch ETL

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

数据清洗策略

实时流处理 ETL

Flink 实时优势

WordCount 基础示例

实时数据同步

实时聚合

Lambda 架构设计

架构分层

实现示例

Kappa 架构演进

核心思想

全量历史重计算

工具选型对比

总结与建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具