HDFS 编程实践：命令、API 与部署

分布式文件系统 HDFS 的编程实践主要涉及 Shell 命令操作、Web 界面管理以及 Java API 开发。这里以 Hadoop 3.3.5 版本为例，介绍如何在 Linux 环境下进行文件操作和程序编写。

一、HDFS 常用命令

hadoop fs 是 HDFS 最常用的 Shell 命令，适用于本地文件和 HDFS 文件系统。相比之下，hadoop dfs 和 hdfs dfs 仅针对 HDFS。基本用法如下：

hadoop fs [genericOptions][commandOptions]

以下是一些高频使用的命令示例：

hadoop fs -ls <path>：显示指定路径下文件的详细信息。
hadoop fs -ls -R <path>：递归列出目录内容。
hadoop fs -cat <path>：将文件内容输出到标准输出。
hadoop fs -mkdir [-p] <paths>：创建文件夹，-p 支持递归创建。
hadoop fs -put <localsrc> <dst>：从本地上传文件到 HDFS。
hadoop fs -get <src> <localdst>：从 HDFS 下载文件到本地。
hadoop fs -rm -r <path>：递归删除文件或目录。
hadoop fs -setrep [-R] <path>：修改文件副本系数。

对于权限管理，如 chown 和 chmod，通常仅限超级用户或文件所有者执行。

二、HDFS 的 Web 页面

配置好集群后，可以通过浏览器访问 NameNode 的 Web UI（默认端口 9870），例如 http://localhost:9870。该页面提供了直观的集群状态监控、日志查看及文件浏览功能。

查看文件系统信息

虽然 Web 界面方便浏览，但实际运维中更多依赖 Shell 命令或 API 脚本实现自动化。例如，通过'Browse the filesystem'查看目录等价于执行 hadoop fs -ls /。

三、HDFS 常用 Java API 及应用实例

Hadoop 基于 Java 构建，Java API 是开发 HDFS 应用的核心。常用的类包括 FileSystem（文件系统抽象）、FileStatus（元数据接口）、FSDataInputStream/OutputStream（流处理）以及 Configuration（配置管理）。

（一）常用 Java API 介绍

org.apache.hadoop.fs.FileSystem：通用文件系统基类，提供具体的实现如 DistributedFileSystem。
org.apache.hadoop.fs.FileStatus：获取文件大小、块大小、所有者等元数据。
org.apache.hadoop.conf.Configuration：读取 core-site.xml 等配置文件。
org.apache.hadoop.fs.Path：表示 HDFS 中的文件路径。

（二）应用实例

import java.io.IOException; import java.io.PrintStream; import java.net.URI; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; /** * 过滤掉文件名满足特定条件的文件 */ class MyPathFilter implements PathFilter { String reg = null; MyPathFilter(String reg) { this.reg = reg; } public boolean accept(Path path) { if (!(path.toString().matches(reg))) return true; return false; } } /** * 利用 FSDataOutputStream 和 FSDataInputStream 合并 HDFS 中的文件 */ public class MergeFile { Path inputPath = null; // 待合并的文件所在的目录的路径 Path outputPath = null; // 输出文件的路径 public MergeFile(String input, String output) { this.inputPath = new Path(input); this.outputPath = new Path(output); } public void doMerge() throws IOException { Configuration conf = new Configuration(); conf.set("fs.defaultFS", "hdfs://localhost:9000"); conf.set("fs.hdfs.impl", "org.apache.hadoop.hdfs.DistributedFileSystem"); FileSystem fsSource = FileSystem.get(URI.create(inputPath.toString()), conf); FileSystem fsDst = FileSystem.get(URI.create(outputPath.toString()), conf); // 过滤掉输入目录中后缀为.abc 的文件 FileStatus[] sourceStatus = fsSource.listStatus(inputPath, new MyPathFilter(".*\\.abc")); FSDataOutputStream fsdos = fsDst.create(outputPath); PrintStream ps = new PrintStream(System.out); // 分别读取过滤之后的每个文件的内容，并输出到同一个文件中 for (FileStatus sta : sourceStatus) { System.out.print("路径：" + sta.getPath() + " 文件大小：" + sta.getLen() + " 权限：" + sta.getPermission() + " 内容："); FSDataInputStream fsdis = fsSource.open(sta.getPath()); byte[] data = new byte[1024]; int read = -1; while ((read = fsdis.read(data)) > 0) { ps.write(data, 0, read); fsdos.write(data, 0, read); } fsdis.close(); } ps.close(); fsdos.close(); } public static void main(String[] args) throws IOException { MergeFile merge = new MergeFile("hdfs://localhost:9000/user/hadoop/", "hdfs://localhost:9000/user/hadoop/merge.txt"); merge.doMerge(); } }

HDFS 编程实践：命令、API 与部署

一、HDFS 常用命令

二、HDFS 的 Web 页面

三、HDFS 常用 Java API 及应用实例

（一）常用 Java API 介绍

（二）应用实例

更多推荐文章

相关免费在线工具

总结

更多推荐文章

相关免费在线工具

HDFS 编程实践：命令、API 与部署

一、HDFS 常用命令

二、HDFS 的 Web 页面

三、HDFS 常用 Java API 及应用实例

（一）常用 Java API 介绍

（二）应用实例

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具