分布式文件系统 HDFS 的数据读写过程

HDFS 数据读写涉及客户端与 NameNode、DataNode 交互。读数据时，客户端通过 FileSystem.open() 获取 DFSInputStream，向 NameNode 请求块位置，选择最近节点读取并缓存；写数据时，通过 FileSystem.create() 获取 DFSOutputStream，NameNode 创建文件元数据，数据分包形成管道传输至多个 DataNode，接收方发送 ACK 确认包逆流返回，写入完成后通知 NameNode 关闭文件。

w795471发布于 2026/3/30更新于 2026/7/2233 浏览

在介绍 HDFS 的数据读写过程之前，需要简单介绍一下相关的类。FileSystem 是一个通用文件系统的抽象基类，可以被分布式文件系统继承，所有可能使用 Hadoop 文件系统的代码都要使用到这个类。Hadoop 为 FileSystem 这个抽象类提供了多种具体的实现，DistributedFileSystem 就是 FileSystem 在 HDFS 中的实现。FileSystem 的 open() 方法返回的是一个输入流 FSDataInputStream 对象，在 HDFS 中具体的输入流就是 DFSInputStream；FileSystem 中的 create() 方法返回的是一个输出流 FSDataOutputStream 对象，在 HDFS 中具体的输出流就是 DFSOutputStream。

一、读数据的过程

import java.io.BufferedReader;
import java.io.InputStreamReader;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

public class Chapter3 {
    public static void main(String[] args) {
        try {
            Configuration conf = new Configuration();
            conf.set("fs.defaultFS", "hdfs://localhost:9000");
            conf.set("fs.hdfs.impl", "org.apache.hadoop.hdfs.DistributedFileSystem");
            FileSystem fs = FileSystem.get(conf);
            Path file = new Path("test");
            FSDataInputStream getIt = fs.open(file);
            BufferedReader d =  ( (getIt));
               d.readLine(); 
            System.out.println(content);
            d.close(); 
            fs.close(); 
        }  (Exception e) {
            e.printStackTrace();
        }
    }
}

相关免费在线工具

Keycode 信息
查找任何按下的键的javascript键代码、代码、位置和修饰符。在线工具，Keycode 信息在线工具，online
Escape 与 Native 编解码
JavaScript 字符串转义/反转义；Java 风格 \uXXXX（Native2Ascii）编码与解码。在线工具，Escape 与 Native 编解码在线工具，online
JavaScript / HTML 格式化
使用 Prettier 在浏览器内格式化 JavaScript 或 HTML 片段。在线工具，JavaScript / HTML 格式化在线工具，online
JavaScript 压缩与混淆
Terser 压缩、变量名混淆，或 javascript-obfuscator 高强度混淆（体积会增大）。在线工具，JavaScript 压缩与混淆在线工具，online
加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

public class Chapter3 {
    public static void main(String[] args) {
        try {
            Configuration conf = new Configuration();
            conf.set("fs.defaultFS", "hdfs://localhost:9000");
            conf.set("fs.hdfs.impl", "org.apache.hadoop.hdfs.DistributedFileSystem");
            FileSystem fs = FileSystem.get(conf);
            byte[] buff = "Hello world".getBytes(); // 要写入的内容
            String filename = "test"; // 要写入的文件名
            FSDataOutputStream os = fs.create(new Path(filename));
            os.write(buff, 0, buff.length);
            System.out.println("Create:" + filename);
            os.close();
            fs.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

客户端通过 FileSystem.create() 创建文件，相应地，在 HDFS 中 DistributedFileSystem 具体实现了 FileSystem。因此，调用 create() 方法后，DistributedFileSystem 会创建输出流 FSDataOutputStream，对于 HDFS 而言，具体的输出流就是 DFSOutputStream。
然后，DistributedFileSystem 通过 RPC 远程调用名称节点，在文件系统的命名空间中创建一个新的文件。名称节点会执行一些检查，比如文件是否已经存在，客户端是否有权限创建文件等。检查通过之后，名称节点会构造一个新文件，并添加文件信息。远程方法调用结束后，DistributedFileSystem 会利用 DFSOutputStream 来实例化 FSDataOutputStream，并返回给客户端，客户端使用这个输出流写入数据。
获得输出流 FSDataOutputStream 以后，客户端调用输出流的 write() 方法向 HDFS 中对应的文件写入数据。
客户端向输出流 FSDataOutputStream 中写入的数据会首先被分成一个个的分包，这些分包被放入 DFSOutputStream 对象的内部队列。输出流 FSDataOutputStream 会向名称节点申请保存文件和副本数据块的若干个数据节点，这些数据节点形成一个数据流管道。队列中的分包最后被打包成数据包，发往数据流管道中的第 1 个数据节点，第 1 个数据节点将数据包发送给第 2 个数据节点，第 2 个数据节点将数据包发送给第 3 个数据节点，这样，数据包会流经管道上的各个数据节点。
因为各个数据节点位于不同的机器上，数据需要通过网络发送。因此，为了保证所有数据节点的数据都是准确的，接收到数据的数据节点要向发送者发送'确认包'（ACK Packet）。确认包沿着数据流管道逆流而上，从数据流管道依次经过各个数据节点并最终发往客户端，当客户端收到应答时，它将对应的分包从内部队列移除。不断执行 3～5 步，直到数据全部写完。
客户端调用 close() 方法关闭输出流，此时开始，客户端不会再向输出流中写入数据，所以，当 DFSOutputStream 对象内部队列中的分包都收到应答以后，就可以使用 ClientProtocol.complete() 方法通知名称节点关闭文件，完成一次正常的写文件过程。

分布式文件系统 HDFS 的数据读写过程

一、读数据的过程

更多推荐文章

相关免费在线工具

二、写数据的过程

小结

更多推荐文章

相关免费在线工具

分布式文件系统 HDFS 的数据读写过程

一、读数据的过程

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

二、写数据的过程

小结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具