HDFS 数据读写流程
理解 HDFS 读写前,先明确几个核心类。FileSystem 是通用文件系统的抽象基类,所有使用 Hadoop 文件系统的代码都依赖它。在 HDFS 中,DistributedFileSystem 是其具体实现。FileSystem.open() 返回 FSDataInputStream,对应 HDFS 的 DFSInputStream;create() 返回 FSDataOutputStream,对应 DFSOutputStream。
读数据的过程
客户端读取文件时,内部执行流程如下:
import java.io.BufferedReader;
import java.io.InputStreamReader;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
public class Chapter3 {
public static void main(String[] args) {
try {
Configuration conf = new Configuration();
conf.set("fs.defaultFS", "hdfs://localhost:9000");
conf.set("fs.hdfs.impl", "org.apache.hadoop.hdfs.DistributedFileSystem");
FileSystem fs = FileSystem.get(conf);
Path file = new Path("test");
FSDataInputStream in = fs.open(file);
( (in));
reader.readLine();
System.out.println(content);
reader.close();
in.close();
fs.close();
} (Exception e) {
e.printStackTrace();
}
}
}




