跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
Javajava

分布式文件系统 HDFS 相关概念详解

HDFS 使用块机制存储文件,默认 64MB 块大小降低寻址开销。名称节点管理元数据(FsImage/EditLog),数据节点存储实际数据。第二名称节点定期合并日志与镜像以优化重启性能,作为检查点但不能实现热备份,节点故障可能导致元数据丢失。

Qiny01发布于 2026/3/22更新于 2026/5/3117 浏览
分布式文件系统 HDFS 相关概念详解

一、块

在传统的文件系统中,为了提高磁盘读写效率,一般以数据块为单位,而不是以字节为单位。比如机械式硬盘(磁盘的一种)包含了磁头和转动部件,在读取数据时有一个寻道的过程,通过转动盘片和移动磁头的位置,找到数据在机械式硬盘中的存储位置,才能进行读写。在 I/O 开销中,机械式硬盘的寻址时间是最耗时的部分,一旦找到第一条记录,剩下的顺序读取效率是非常高的。因此,以块为单位读写数据,可以把磁盘寻道时间分摊到大量数据中。

HDFS 也同样采用了块的概念,默认的一个块大小是 64 MB。在 HDFS 中的文件会被拆分成多个块,每个块作为独立的单元进行存储。我们所熟悉的普通文件系统的块一般只有几千字节,可以看出,HDFS 在块的大小的设计上明显要大于普通文件系统。HDFS 这么做,是为了最小化寻址开销。HDFS 寻址开销不仅包括磁盘寻道开销,还包括数据块的定位开销。当客户端需要访问一个文件时,首先从名称节点获得组成这个文件的数据块的位置列表,然后根据位置列表获取实际存储各个块的数据节点的位置,最后数据节点根据数据块信息在本地 Linux 文件系统中找到对应的文件,并把数据返回给客户端。设计一个比较大的块,可以把上述寻址开销分摊到较多的数据中,降低了单位数据的寻址开销。因此,HDFS 在文件块大小设置上要远远大于普通文件系统,以期在处理大规模文件时能够获得更好的性能。当然,块的大小也不宜设置过大,因为通常 MapReduce 中的 Map 任务一次只处理一个块中的数据,如果启动的任务太少,就会降低作业并行处理速度。

HDFS 采用抽象的块概念可以带来以下几个明显的好处。

  • 支持大规模文件存储。文件以块为单位进行存储,一个大规模文件可以被拆分成若干个文件块,不同的文件块可以被分发到不同的节点上,因此一个文件的大小不会受到单个节点的存储容量的限制,可以远远大于网络中任意节点的存储容量。
  • 简化系统设计。首先,HDFS 采用块概念大大简化了存储管理,因为文件块大小是固定的,这样就可以很容易计算出一个节点可以存储多少文件块;其次,这方便了元数据的管理,元数据不需要和文件块一起存储,可以由其他系统负责管理元数据。
  • 适合数据备份。每个文件块都可以冗余存储到多个节点上,大大提高了系统的容错性和可用性。

二、名称节点和数据节点

在 HDFS 中,名称节点负责管理分布式文件系统的命名空间(Namespace),保存了两个核心的数据结构(见图 1),即 FsImage 和 EditLog。FsImage 用于维护文件系统树以及文件树中所有的文件和文件夹的元数据,操作日志文件 EditLog 中记录了所有针对文件的创建、删除、重命名等操作。名称节点记录了每个文件中各个块所在的数据节点的位置信息,但是并不持久化地存储这些信息,而是在系统每次启动时扫描所有数据节点并重构,得到这些信息。

名称节点在启动时,会将 FsImage 的内容加载到内存当中,然后执行 EditLog 文件中的各项操作,使内存中的元数据保持最新。这个操作完成以后,就会创建一个新的 FsImage 文件和一个空的 EditLog 文件。名称节点启动成功并进入正常运行状态以后,HDFS 中的更新操作都会被写入 EditLog,而不是直接被写入 FsImage。这是因为对于分布式文件系统而言,FsImage 文件通常都很庞大(一般都是 GB 级别以上),如果所有的更新操作都直接在 FsImage 文件中进行,那么系统的运行速度会变得非常缓慢。相对而言,EditLog 通常都要远远小于 FsImage,更新操作写入 EditLog 是非常高效的。名称节点在启动的过程中处于'安全模式',只能对外提供读操作,无法提供写操作。启动过程结束后,系统就会退出安全模式,进入正常运行状态,对外提供读写操作。

在这里插入图片描述

图 1 名称节点的数据结构

数据节点(DataNode)是分布式文件系统 HDFS 的工作节点,负责数据的存储和读取,会根据客户端或者名称节点的调度来进行数据的存储和检索,并且向名称节点定期发送自己所存储的块的列表信息。每个数据节点中的数据会被保存在各自节点的本地 Linux 文件系统中。

三、第二名称节点

在名称节点运行期间,HDFS 会不断产生更新操作,这些更新操作直接被写入 EditLog 文件,因此 EditLog 文件也会逐渐变大。在名称节点运行期间,不断变大的 EditLog 文件通常对于系统性能不会产生显著影响,但是当名称节点重启时,需要将 FsImage 加载到内存中,然后逐条执行 EditLog 中的记录,使 FsImage 保持最新。可想而知,如果 EditLog 很大,就会导致整个过程变得非常缓慢,使名称节点在启动过程中长期处于'安全模式',无法正常对外提供写操作,影响用户的使用。

为了有效解决 EditLog 逐渐变大带来的问题,HDFS 在设计中采用了第二名称节点(Secondary NameNode)。第二名称节点是 HDFS 架构的一个重要组成部分,具有两个方面的功能:首先,它可以完成 EditLog 与 FsImage 的合并操作,减小 EditLog 文件大小,缩短名称节点重启时间;其次,它可以作为名称节点的'检查点',保存名称节点中的元数据信息。具体如下。

  1. EditLog 与 FsImage 的合并操作。每隔一段时间,第二名称节点会和名称节点通信,请求其停止使用 EditLog 文件(这里假设这个时刻为 t1),如图 2 所示,暂时将新到达的写操作添加到一个新的文件 EditLog.new 中。然后,第二名称节点把名称节点中的 FsImage 文件和 EditLog 文件拉回本地,再加载到内存中;对二者执行合并操作,即在内存中逐条执行 EditLog 中的操作,使 FsImage 保持最新。合并结束后,第二名称节点会把合并后得到的最新的 FsImage.ckpt 文件发送到名称节点。名称节点收到后,会用最新的 FsImage.ckpt 文件去替换旧的 FsImage 文件,同时用 EditLog.new 文件去替换 EditLog 文件(这里假设这个时刻为 t2),从而减小了 EditLog 文件的大小。
  2. 作为名称节点的'检查点'。从上面的合并过程可以看出,第二名称节点会定期和名称节点通信,从名称节点获取 FsImage 文件和 EditLog 文件,执行合并操作得到新的 FsImage.ckpt 文件。从这个角度来讲,第二名称节点相当于为名称节点设置了一个'检查点',周期性地备份名称节点中的元数据信息,当名称节点发生故障时,就可以用第二名称节点中记录的元数据信息进行系统恢复。但是,在第二名称节点上合并操作得到的新的 FsImage 文件是合并操作发生时(即 t1 时刻)HDFS 记录的元数据信息,并没有包含 t1 时刻和 t2 时刻期间发生的更新操作。如果名称节点在 t1 时刻和 t2 时刻期间发生故障,系统就会丢失部分元数据信息,在 HDFS 的设计中,也并不支持把系统直接切换到第二名称节点。因此从这个角度来讲,第二名称节点只是起到了名称节点的'检查点'作用,并不能起到'热备份'作用。即使有了第二名称节点的存在,当名称节点发生故障时,系统还是有可能会丢失部分元数据信息的。

在这里插入图片描述

图 2 第二名称节点工作过程示意

小结

HDFS 以块为单位存储文件,默认块大小 64MB,远大于普通文件系统,以最小化寻址开销,支持大规模文件存储,简化系统设计,方便数据备份。名称节点管理命名空间,保存 FsImage 和 EditLog。数据节点负责数据存储和读取。第二名称节点负责合并 EditLog 与 FsImage,减小文件大小,缩短名称节点重启时间,并作为名称节点的'检查点'备份元数据,但不能'热备份',名称节点故障时系统仍可能丢失部分元数据。

目录

  1. 一、块
  2. 二、名称节点和数据节点
  3. 三、第二名称节点
  4. 小结
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • C++ 模板编程基础:泛型编程入门与实践
  • 五大经典排序算法详解:插入、希尔、冒泡、选择与堆排序
  • C++ 智能指针详解:原理、模拟实现与使用场景
  • Python 集合与列表性能对比:何时更快?
  • DeepSeek R1 671B 本地部署与动态量化技术详解
  • FPGA 开发常用软件对比:Vivado、Quartus、ModelSim 详解
  • C++ 原子操作 compare_exchange_weak 详解
  • Web 技术核心与安全风险(三):PHP 基础与数据交互
  • GitHub Copilot 学生认证指南
  • 手机端运行 Stable Diffusion 的开源方案与使用指南
  • MySQL Windows 环境安装与配置指南
  • C++ 工程师在 AIGC 模型加载中的技术挑战与解决方案
  • 圣女司幼幽-Z-Turbo 模型:10 分钟搭建牧神记 AI 绘画工作流
  • iFlow Cli:终端 AI 助手使用指南
  • 大模型 Token 与上下文窗口详解
  • 微信小程序接入 Gitee 进行版本管理与团队协作
  • Java ResourceBundle 与 .NET RESX 国际化方案对比
  • MySQL 权限管控与 C/C++ 客户端接入实战
  • GitHub 趋势日报 (2025 年 08 月 11 日)
  • 为何 glTF 与 GLB 格式成为标准化主资产的主流选择

相关免费在线工具

  • Keycode 信息

    查找任何按下的键的javascript键代码、代码、位置和修饰符。 在线工具,Keycode 信息在线工具,online

  • Escape 与 Native 编解码

    JavaScript 字符串转义/反转义;Java 风格 \uXXXX(Native2Ascii)编码与解码。 在线工具,Escape 与 Native 编解码在线工具,online

  • JavaScript / HTML 格式化

    使用 Prettier 在浏览器内格式化 JavaScript 或 HTML 片段。 在线工具,JavaScript / HTML 格式化在线工具,online

  • JavaScript 压缩与混淆

    Terser 压缩、变量名混淆,或 javascript-obfuscator 高强度混淆(体积会增大)。 在线工具,JavaScript 压缩与混淆在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online

  • Base64 文件转换器

    将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online