使用HDFS
更新时间:2026-07-01
使用 HDFS
前提条件
使用 HDFS 前,请确保已完成以下准备工作:
- 已创建 BMR 集群,并启用 HDFS 服务。
- 已获取集群访问权限。
- 已安装 Hadoop 客户端,或登录至集群节点执行 HDFS 命令。
基本操作
创建目录
创建 HDFS 目录。
Plain Text
1hdfs dfs -mkdir /data
上传文件
将本地文件上传至 HDFS。
Plain Text
1hdfs dfs -put local_file.txt /data/
查看目录
查看指定目录中的文件和子目录。
Plain Text
1hdfs dfs -ls /data
查看文件内容
查看 HDFS 文件内容。
Plain Text
1hdfs dfs -cat /data/local_file.txt
下载文件
将 HDFS 文件下载至本地。
Plain Text
1hdfs dfs -get /data/local_file.txt ./
删除文件
删除指定文件。
Plain Text
1hdfs dfs -rm /data/local_file.txt
删除目录
删除指定目录及其内容。
Plain Text
1hdfs dfs -rm -r /data
文件权限管理
HDFS 支持类 Unix 权限模型,可通过以下命令管理文件和目录权限。
修改权限:
Plain Text
1hdfs dfs -chmod 755 /data
修改文件所有者:
Plain Text
1hdfs dfs -chown user:group /data
修改所属用户组:
Plain Text
1hdfs dfs -chgrp group /data
配额管理
管理员可为目录配置名称配额或空间配额,限制目录下文件数量或存储容量。
例如,设置目录空间配额:
Plain Text
1hdfs dfsadmin -setSpaceQuota 100g /data
取消空间配额:
Plain Text
1hdfs dfsadmin -clrSpaceQuota /data
配额管理需要管理员权限。
回收站
HDFS 回收站(Trash)可防止误删除,文件删除后会暂存到 .Trash 并在保留期内支持恢复。但该机制仅对 hdfs dfs -rm 等客户端命令生效,直接调用 HDFS API 默认会永久删除数据。
注意事项
- HDFS 更适合存储大文件,不建议存储大量小文件,否则可能增加 NameNode 元数据压力。
- 建议合理规划副本数量,在数据可靠性和存储成本之间取得平衡。
- 生产环境建议定期检查 HDFS 使用率,及时扩容存储节点。
- 建议结合 Hive、Spark、Flink 等计算引擎使用,以充分发挥 HDFS 的分布式存储能力。
评价此篇文章
