理解 HDFS 的读写机制前,先理清几个核心类。FileSystem 是通用文件系统的抽象基类,所有使用 Hadoop 文件系统的代码都依赖它;在 HDFS 中,DistributedFileSystem 是其具体实现。open() 方法返回输入流 FSDataInputStream(HDFS 中为 DFSInputStream),create() 方法返回输出流 FSDataOutputStream(HDFS 中为 DFSOutputStream)。
一、读数据的过程
当客户端发起读取请求时,底层交互大致遵循以下流程。
import java.io.BufferedReader;
import java.io.InputStreamReader;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
public class Chapter3 {
public static void main(String[] args) {
try {
Configuration conf = new Configuration();
conf.set("fs.defaultFS", "hdfs://localhost:9000");
conf.set("fs.hdfs.impl", "org.apache.hadoop.hdfs.DistributedFileSystem");
FileSystem fs = FileSystem.get(conf);
Path file = new Path("test");
FSDataInputStream getIt = fs.open(file);
BufferedReader ( (getIt));
d.readLine();
System.out.println(content);
d.close();
fs.close();
} (Exception e) {
e.printStackTrace();
}
}
}


