Spark 核心基础与架构全解析 | 极客日志

Scalajava算法

Spark 核心基础与架构全解析

Spark 是一个快速通用的分布式计算引擎，基于内存计算解决 Hadoop MapReduce 效率问题。 Spark 核心基础与架构，涵盖 Driver 与 Executor 角色、DAG 任务划分及 Shuffle 机制。深入讲解 RDD 弹性数据集特性、缓存持久化及容错血缘关系。介绍 Spark SQL 结构化数据处理、DataFrame/Dataset 转换及 Catalyst 优化器。阐述 Spark Streaming 微批处理原理、DStream 操作与检查点机制。最后提供常见问题解决方案及资源、计算层面的核心优化策略，帮助开发者高效构建大数据应用。

星辰大海发布于 2026/3/29更新于 2026/5/2730 浏览

Spark 学习笔记

一、Spark 核心基础

1.1 什么是 Spark

Apache Spark 是一个快速、通用、可扩展的分布式计算引擎，基于 Scala 语言开发，由加州大学伯克利分校 AMP 实验室于 2010 年开源，2013 年捐赠给 Apache 软件基金会，成为顶级开源项目。

核心定位：解决 Hadoop MapReduce 计算速度慢、迭代计算效率低的问题，提供内存计算能力，支持多种计算场景（批处理、流处理、机器学习、图计算等）。

1.2 Spark 与 Hadoop 的对比

对比维度	Spark	Hadoop MapReduce
计算模型	内存计算，中间结果可缓存，支持迭代计算	磁盘计算，中间结果写入磁盘，不支持迭代优化
计算速度	比 MapReduce 快 10-100 倍（内存计算优势）	速度较慢，受磁盘 I/O 限制
适用场景	批处理、流处理、机器学习、图计算、交互式查询	仅适用于大规模批处理，场景单一
依赖关系	可独立运行，也可依赖 Hadoop 的 HDFS（存储）、YARN（调度）	依赖 Hadoop 生态（HDFS 存储、YARN 调度）

1.3 Spark 核心优势

快速：基于内存计算，减少磁盘 I/O 开销，迭代计算无需重复读写数据。
通用：提供统一的 API，支持批处理（Spark Core）、流处理（Spark Streaming/Structured Streaming）、机器学习（MLlib）、图计算（GraphX）四大核心模块。
可扩展：支持水平扩展，可部署在单机、集群（Standalone、YARN、Mesos、K8s），节点数量可动态调整。
易用：支持 Scala、Java、Python、R、SQL 等多种语言，API 简洁，开发效率高。

1.4 Spark 运行环境

1.4.1 运行模式分类

Local 模式（本地模式）：单机运行，适用于开发、测试、小规模数据处理（无需集群），核心参数为 local[N]（N 为 CPU 核心数，local[*]表示使用全部核心）。
Standalone 模式（独立集群模式）：Spark 自带的集群调度模式，无需依赖其他组件，部署简单，适用于中小规模集群。
YARN 模式（Hadoop YARN 模式）：最常用的模式，依赖 Hadoop 的 YARN 作为资源调度器，HDFS 作为存储，适用于大规模集群，与 Hadoop 生态无缝集成。
Mesos 模式：依赖 Apache Mesos 作为资源调度器，适用于多框架（Spark、Hadoop、Storm 等）共享集群资源的场景。
K8s 模式（容器化模式）：基于 Kubernetes 部署 Spark 集群，适用于容器化运维环境，可实现资源的动态调度和弹性伸缩。

1.4.2 核心运行环境配置（以 YARN 模式为例）

关键配置文件（spark/conf 目录）：

spark-env.sh：配置环境变量（如 JAVA_HOME、HADOOP_HOME、YARN_CONF_DIR、Spark 集群节点信息）。
spark-defaults.conf：配置 Spark 默认参数（如指定 Master 为 yarn、指定 Driver/Executor 内存、指定日志存储路径）。
slaves（Standalone 模式用）：配置集群从节点（Worker）的主机名。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Keycode 信息
查找任何按下的键的javascript键代码、代码、位置和修饰符。在线工具，Keycode 信息在线工具，online
Escape 与 Native 编解码
JavaScript 字符串转义/反转义；Java 风格 \uXXXX（Native2Ascii）编码与解码。在线工具，Escape 与 Native 编解码在线工具，online
JavaScript / HTML 格式化
使用 Prettier 在浏览器内格式化 JavaScript 或 HTML 片段。在线工具，JavaScript / HTML 格式化在线工具，online
JavaScript 压缩与混淆
Terser 压缩、变量名混淆，或 javascript-obfuscator 高强度混淆（体积会增大）。在线工具，JavaScript 压缩与混淆在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online

对比维度	RDD	DataFrame	Dataset
类型安全	强类型（编译时检查）	弱类型（运行时检查）	强类型（编译时检查）
Schema 信息	无 Schema（仅存储数据）	有 Schema（结构化）	有 Schema（结构化）
优化支持	无优化（依赖用户手动优化）	支持 Catalyst 优化	支持 Catalyst 优化
API 灵活性	高（支持任意复杂操作）	中（结构化操作为主）	高（结合 RDD 和 DataFrame 优势）
适用场景	非结构化/半结构化数据、复杂计算	结构化数据、SQL 查询、快速分析	结构化数据、强类型需求、复杂业务逻辑

import org.apache.spark.sql.SparkSession

object SparkSQLDemo {
  def main(args: Array[String]): Unit = {
    // 创建 SparkSession
    val spark = SparkSession.builder()
      .appName("SparkSQLDemo")
      .master("local[*]")
      .enableHiveSupport()
      .getOrCreate()

    // 导入隐式转换（用于 RDD→DataFrame 等操作）
    import spark.implicits._

    // 执行 SQL 查询、操作 DataFrame/Dataset...
    // 关闭 SparkSession
    spark.stop()
  }
}

读取 CSV 文件：spark.read.csv("path").toDF("col1", "col2")，可指定分隔符、是否有表头（header=true）、数据类型（inferSchema=true）。
读取 JSON 文件：spark.read.json("path")，自动推断 Schema。
读取 Hive 表：spark.sql("select * from hive_db.hive_table")，需开启 enableHiveSupport()。

读取 JDBC 数据库（MySQL/PostgreSQL）：

spark.read.format("jdbc")
  .option("url", "jdbc:mysql://host:port/dbname")
  .option("dbtable", "table_name")
  .option("user", "username")
  .option("password", "password")
  .load()

写入 CSV/JSON 文件：df.write.csv("path")、df.write.json("path")，可指定 mode（overwrite 覆盖、append 追加、ignore 忽略、errorifexists 报错）。
写入 Hive 表：df.write.mode("overwrite").saveAsTable("hive_db.hive_table")。

写入 JDBC 数据库：

df.write.format("jdbc")
  .option("url", "jdbc:mysql://host:port/dbname")
  .option("dbtable", "table_name")
  .option("user", "username")
  .option("password", "password")
  .mode("append")
  .save()

import org.apache.spark.streaming.{StreamingContext, Seconds}
import org.apache.spark.SparkConf

object SparkStreamingDemo {
  def main(args: Array[String]): Unit = {
    // 1. 创建 SparkConf
    val conf = new SparkConf().setAppName("SparkStreamingDemo").setMaster("local[*]")
    // 2. 创建 StreamingContext，指定批处理间隔为 1 秒
    val ssc = new StreamingContext(conf, Seconds(1))
    // 3. 创建 DStream、执行操作...
    // 4. 启动流处理（开始接收数据并处理）
    ssc.start()
    // 5. 等待流处理停止（阻塞当前线程，直到手动停止或发生异常）
    ssc.awaitTermination()
    // 6. 停止流处理（可选，手动停止）
    ssc.stop()
  }
}

// 设置检查点路径（HDFS 路径，推荐）
ssc.checkpoint("hdfs://path/to/checkpoint")

减少 Shuffle 操作：优先使用窄依赖操作（如 Map、Filter），避免不必要的宽依赖（如 GroupByKey、Join），从源头减少网络传输和磁盘 I/O 开销，这是计算优化的核心前提（与 5.1.3 Shuffle 性能低下的优化逻辑呼应）。
优化 Task 粒度：合理设置 Task 数量，一般建议 Task 数量为集群总 CPU 核心数的 2-3 倍，确保每个 Task 处理的数据量控制在 128M-256M 之间。既避免 Task 过大导致单个 Executor 内存压力激增，也防止 Task 过小造成集群任务调度开销过高、资源利用率不足。
使用高效的算子：优先选择高性能算子替代低效算子，降低计算开销。例如用 ReduceByKey 替代 GroupByKey（ReduceByKey 支持本地预聚合，可大幅减少 Shuffle 阶段的数据量）；简单筛选后映射场景，可用 filter+map 替代 flatMap 提升效率；去重操作可通过 groupByKey+first() 自定义实现，减少 distinct 算子的冗余计算。
优化数据格式：采用高效存储和序列化格式，进一步降低 I/O 和内存消耗。存储层面，用 Parquet、ORC 等列式存储格式替代文本格式，可减少不必要的字段读取，提升磁盘读取效率；序列化层面，推荐使用 Kyro 序列化替代默认的 Java 序列化，序列化效率可提升 30%-50%，同时大幅减少内存占用和网络传输的数据量。
避免数据倾斜：从计算层面进一步规避倾斜问题。可通过数据预处理过滤无效倾斜 key、大表与大表 Join 时采用分桶 Join 减少 Shuffle 压力、根据数据实时分布动态调整分区数等方式，确保计算任务均匀分配到各个 Executor，避免单个 Task 长期阻塞拖慢整体任务进度。
利用惰性求值特性：充分发挥 Spark 惰性求值的优势，合理规划 Transformation 和 Action 操作的执行顺序。将过滤、列裁剪等轻量级操作前置，提前筛选无效数据、剔除不必要字段，减少后续计算的数据量；同时避免频繁调用 Action 操作，尽量将多个关联的 Action 操作合并执行，减少 DAG 的重复构建和计算，提升整体执行效率。

Spark 核心基础与架构全解析

Spark 学习笔记

一、Spark 核心基础

1.1 什么是 Spark

1.2 Spark 与 Hadoop 的对比

1.3 Spark 核心优势

1.4 Spark 运行环境

1.4.1 运行模式分类

1.4.2 核心运行环境配置（以 YARN 模式为例）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

二、Spark 核心组件与架构

2.1 Spark 核心架构组件

2.1.1 Driver（驱动节点）

2.1.2 Executor（执行节点）

2.1.3 Cluster Manager（集群管理器）

2.2 DAG（有向无环图）与 Stage 划分

2.2.1 DAG 概念

2.2.2 Stage 划分规则

2.2.3 Shuffle（洗牌）机制

2.3 RDD（弹性分布式数据集）核心概念

2.3.1 RDD 定义

2.3.2 RDD 的创建方式

2.3.3 RDD 的两大操作类型

（1）Transformation（转换操作）

（2）Action（行动操作）

2.3.4 RDD 的缓存与持久化

（1）缓存 API

（2）注意事项

2.3.5 RDD 的血缘关系与容错机制

三、Spark SQL 核心知识

3.1 Spark SQL 简介

3.2 DataFrame 与 Dataset

3.2.1 DataFrame

3.2.2 Dataset

3.2.3 RDD、DataFrame、Dataset 对比

3.2.4 三者相互转换

3.3 Spark SQL 实操要点

3.3.1 SparkSession（入口对象）

3.3.2 读取结构化数据源

3.3.3 执行 SQL 查询

3.3.4 写入结构化数据源

四、Spark Streaming 核心知识

4.1 Spark Streaming 简介

4.2 Spark Streaming 核心概念

4.2.1 DStream（离散流）

4.2.2 Batch Interval（批处理间隔）

4.2.3 StreamingContext（流处理入口）

4.3 DStream 的操作

4.3.1 转换操作（Transformation）

（1）无状态转换

（2）有状态转换

4.3.2 输出操作（Output Operation）

4.4 数据源接入

4.4.1 基础数据源

4.4.2 高级数据源

4.5 检查点（Checkpoint）机制

4.5.1 核心作用

4.5.2 配置检查点

五、Spark 常见问题与优化

5.1 常见问题及解决方案

5.1.1 Driver 内存溢出（OOM）

5.1.2 Executor 内存溢出（OOM）

5.1.3 Shuffle 性能低下

5.1.4 任务执行缓慢

5.2 核心优化策略

5.2.1 资源优化

5.2.2 计算优化

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具