HDFS 常用命令与 Java API 编程实践

综述由AI生成HDFS 文件操作支持 Shell 命令、Web 页面及 Java API 三种方式。Shell 命令涵盖 ls、cat、mkdir 等基础操作。Web 页面提供集群状态可视化监控。Java API 通过 FileSystem 等类实现文件交互，需配置 Hadoop 依赖。示例演示了 Eclipse 工程搭建、JAR 包引入、代码编写、调试运行及打包部署至 Hadoop 集群的全过程，包含文件合并的具体实现逻辑。

abccba发布于 2026/3/15更新于 2026/4/296 浏览

一、HDFS 常用命令

HDFS 有很多 shell 命令，其中 fs 命令可以说是 HDFS 最常用的命令。利用该命令可以查看 HDFS 文件系统的目录结构、上传和下载数据、创建文件等。该命令的用法为：

hadoop fs [genericOptions][commandOptions]

备注：Hadoop 中有三种 Shell 命令方式：

hadoop fs 适用于任何不同的文件系统，比如本地文件系统和 HDFS 文件系统
hadoop dfs 只能适用于 HDFS 文件系统
hdfs dfs 跟 hadoop dfs 的命令作用一样，也只能适用于 HDFS 文件系统

具体如下。

hadoop fs -ls <path>。显示 <path>指定的文件的详细信息。
hadoop fs -ls -R <path>。ls 命令的递归版本。
hadoop fs -cat <path>。将 <path>指定的文件的内容输出到标准输出（stdout）。
hadoop fs -chgrp [-R] group <path>。将 <path>指定的文件所属的组改为 group，使用-R 对 <path>指定的文件夹内的文件进行递归操作。这个命令只适用于超级用户。
hadoop fs -chown [-R] [owner] [: [group]] <path>。改变 <path>指定的文件所有者，-R 用于递归改变文件夹内的文件所有者。这个命令只适用于超级用户。
hadoop fs -chmod [-R] <mode> <path>。将 <path>指定的文件的权限更改为 <mode>。这个命令只适用于超级用户和文件所有者。
hadoop fs -tail [-f] <path>。将 <path>指定的文件最后 1KB 的内容输出到标准输出（stdout）上，-f 选项用于持续检测新添加到文件中的内容。
hadoop fs -stat [format] <path>。以指定的格式返回 <path>指定的文件的相关信息。当不指定 format 的时候，返回文件 <path>的创建日期。
hadoop fs -touchz <path>。创建一个 <path>指定的空文件。
hadoop fs -mkdir [-p] <paths>。创建 <paths>指定的一个或多个文件夹，-p 选项用于递归创建子文件夹。
hadoop fs -copyFromLocal <localsrc> <dst>。将本地源文件 <localsrc>复制到路径 <dst>指定的文件或文件夹中。
hadoop fs -copyToLocal [-ignorecrc] [-crc] <target> <localdst>。将目标文件 <target>复制到本地文件或文件夹 <localdst>中，可用 -ignorecrc 选项复制 CRC 校验失败的文件，使用 -crc 选项复制文件以及 CRC 信息。
hadoop fs -cp <src> <dst>。将文件从源路径 <src>复制到目标路径 <dst>。
hadoop fs -du <path>。显示 <path>指定的文件或文件夹中所有文件的大小。
hadoop fs -expunge。清空回收站，请参考 HDFS 官方文档以获取更多关于回收站特性的信息。
hadoop fs -get [-ignorecrc] [-crc] <src> <localdst>。复制 <src>指定的文件到本地文件系统 <localdst>指定的文件或文件夹，可用 -ignorecrc 选项复制 CRC 校验失败的文件，使用 -crc 选项复制文件以及 CRC 信息。

一、HDFS 常用命令

hadoop fs [genericOptions][commandOptions]

备注：Hadoop 中有三种 Shell 命令方式：

hadoop fs 适用于任何不同的文件系统，比如本地文件系统和 HDFS 文件系统
hadoop dfs 只能适用于 HDFS 文件系统
hdfs dfs 跟 hadoop dfs 的命令作用一样，也只能适用于 HDFS 文件系统

具体如下。

hadoop fs -ls <path>。显示 <path>指定的文件的详细信息。
hadoop fs -ls -R <path>。ls 命令的递归版本。
hadoop fs -cat <path>。将 <path>指定的文件的内容输出到标准输出（stdout）。
hadoop fs -chgrp [-R] group <path>。将 <path>指定的文件所属的组改为 group，使用-R 对 <path>指定的文件夹内的文件进行递归操作。这个命令只适用于超级用户。
hadoop fs -chown [-R] [owner] [: [group]] <path>。改变 <path>指定的文件所有者，-R 用于递归改变文件夹内的文件所有者。这个命令只适用于超级用户。
hadoop fs -chmod [-R] <mode> <path>。将 <path>指定的文件的权限更改为 <mode>。这个命令只适用于超级用户和文件所有者。
hadoop fs -tail [-f] <path>。将 <path>指定的文件最后 1KB 的内容输出到标准输出（stdout）上，-f 选项用于持续检测新添加到文件中的内容。
hadoop fs -stat [format] <path>。以指定的格式返回 <path>指定的文件的相关信息。当不指定 format 的时候，返回文件 <path>的创建日期。
hadoop fs -touchz <path>。创建一个 <path>指定的空文件。
hadoop fs -mkdir [-p] <paths>。创建 <paths>指定的一个或多个文件夹，-p 选项用于递归创建子文件夹。
hadoop fs -copyFromLocal <localsrc> <dst>。将本地源文件 <localsrc>复制到路径 <dst>指定的文件或文件夹中。
hadoop fs -copyToLocal [-ignorecrc] [-crc] <target> <localdst>。将目标文件 <target>复制到本地文件或文件夹 <localdst>中，可用 -ignorecrc 选项复制 CRC 校验失败的文件，使用 -crc 选项复制文件以及 CRC 信息。
hadoop fs -cp <src> <dst>。将文件从源路径 <src>复制到目标路径 <dst>。
hadoop fs -du <path>。显示 <path>指定的文件或文件夹中所有文件的大小。
hadoop fs -expunge。清空回收站，请参考 HDFS 官方文档以获取更多关于回收站特性的信息。
hadoop fs -get [-ignorecrc] [-crc] <src> <localdst>。复制 <src>指定的文件到本地文件系统 <localdst>指定的文件或文件夹，可用 -ignorecrc 选项复制 CRC 校验失败的文件，使用 -crc 选项复制文件以及 CRC 信息。

import java.io.IOException; import java.io.PrintStream; import java.net.URI; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; /** * 过滤掉文件名满足特定条件的文件 */ class MyPathFilter implements PathFilter { String reg = null; MyPathFilter(String reg) { this.reg = reg; } public boolean accept(Path path) { if (!(path.toString().matches(reg))) return true; return false; } } /** * 利用 FSDataOutputStream 和 FSDataInputStream 合并 HDFS 中的文件 */ public class MergeFile { Path inputPath = null; // 待合并的文件所在的目录的路径 Path outputPath = null; // 输出文件的路径 public MergeFile(String input, String output) { this.inputPath = new Path(input); this.outputPath = new Path(output); } public void doMerge() throws IOException { Configuration conf = new Configuration(); conf.set("fs.defaultFS", "hdfs://localhost:9000"); conf.set("fs.hdfs.impl", "org.apache.hadoop.hdfs.DistributedFileSystem"); FileSystem fsSource = FileSystem.get(URI.create(inputPath.toString()), conf); FileSystem fsDst = FileSystem.get(URI.create(outputPath.toString()), conf); // 下面过滤掉输入目录中后缀为.abc 的文件 FileStatus[] sourceStatus = fsSource.listStatus(inputPath, new MyPathFilter(".*\\.abc")); FSDataOutputStream fsdos = fsDst.create(outputPath); PrintStream ps = new PrintStream(System.out); // 下面分别读取过滤之后的每个文件的内容，并输出到同一个文件中 for (FileStatus sta : sourceStatus) { // 下面打印后缀不为.abc 的文件的路径、文件大小 System.out.print("路径：" + sta.getPath() + " 文件大小：" + sta.getLen() + " 权限：" + sta.getPermission() + " 内容："); FSDataInputStream fsdis = fsSource.open(sta.getPath()); byte[] data = new byte[1024]; int read = -1; while ((read = fsdis.read(data)) > 0) { ps.write(data, 0, read); fsdos.write(data, 0, read); } fsdis.close(); } ps.close(); fsdos.close(); } public static void main(String[] args) throws IOException { MergeFile merge = new MergeFile("hdfs://localhost:9000/user/hadoop/", "hdfs://localhost:9000/user/hadoop/merge.txt"); merge.doMerge(); } }

文件名称	文件内容
file1.txt	this is file1.txt
file2.txt	this is file2.txt
file3.txt	this is file3.txt
file4.abc	this is file4.abc
file5.abc	this is file5.abc

HDFS 常用命令与 Java API 编程实践

一、HDFS 常用命令

HDFS 常用命令与 Java API 编程实践

一、HDFS 常用命令

更多推荐文章

相关免费在线工具

二、HDFS 的 Web 页面

三、HDFS 常用 Java API 及应用实例

（一）常用 Java API 介绍

（二）应用实例

总结

更多推荐文章

相关免费在线工具

HDFS 常用命令与 Java API 编程实践

一、HDFS 常用命令

HDFS 常用命令与 Java API 编程实践

一、HDFS 常用命令

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

二、HDFS 的 Web 页面

三、HDFS 常用 Java API 及应用实例

（一）常用 Java API 介绍

（二）应用实例

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具