简介：本文详细介绍Hadoop单机环境搭建的全流程，涵盖环境准备、安装配置、启动验证等关键步骤，帮助开发者快速掌握Hadoop单机部署的核心技能。

Hadoop单机环境搭建全攻略：从零开始部署指南

一、引言：为什么需要Hadoop单机环境？

Hadoop作为分布式计算框架的标杆，其核心设计目标是处理PB级数据。但在开发调试阶段，搭建完整的分布式集群（3节点以上）存在硬件成本高、配置复杂、调试效率低等问题。单机环境通过伪分布式模式模拟分布式行为，既能验证核心功能，又能显著降低开发门槛。

典型应用场景包括：

本地开发环境快速验证MapReduce作业
学习Hadoop核心组件（HDFS/YARN/MapReduce）的工作原理
调试Hive/Spark等上层应用的SQL或数据处理逻辑
构建持续集成环境中的测试集群

二、环境准备：硬件与软件要求

2.1 硬件配置建议

配置项	最低要求	推荐配置
操作系统	Linux/macOS	Linux Ubuntu 20.04
内存	4GB	8GB+
磁盘空间	20GB	50GB+（SSD优先）
CPU核心数	2核	4核+

关键提示：Hadoop 3.x版本对内存消耗较2.x降低约30%，但建议预留至少2GB内存给DataNode进程。

2.2 软件依赖清单

# 基础依赖安装（Ubuntu示例）
sudo apt update
sudo apt install -y openjdk-11-jdk ssh pdsh

版本兼容性说明：

Hadoop 3.3.4 要求JDK 11（推荐）或JDK 8
避免同时安装多个JDK版本，可通过update-alternatives --config java确认当前版本

三、安装配置：分步骤详解

3.1 下载与解压

wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
tar -xzvf hadoop-3.3.4.tar.gz -C /opt/
sudo ln -s /opt/hadoop-3.3.4 /opt/hadoop

版本选择建议：

生产环境推荐稳定版（如3.3.x）
学习测试可使用最新版（查看Apache官网）

3.2 环境变量配置

编辑~/.bashrc文件，添加以下内容：

export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

执行source ~/.bashrc使配置生效，验证命令：

hadoop version
# 应输出类似：Hadoop 3.3.4

3.3 核心配置文件修改

3.3.1 hadoop-env.sh

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
export HADOOP_OPTS="-Djava.net.preferIPv4Stack=true"

3.3.2 core-site.xml

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/tmp/hadoop</value>
  </property>
</configuration>

3.3.3 hdfs-site.xml

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>  <!-- 单机模式必须设为1 -->
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/tmp/hadoop/dfs/name</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/tmp/hadoop/dfs/data</value>
  </property>
</configuration>

3.3.4 mapred-site.xml（需从模板复制）

cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template \
   $HADOOP_HOME/etc/hadoop/mapred-site.xml

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
  <property>
    <name>mapreduce.map.memory.mb</name>
    <value>512</value>
  </property>
</configuration>

3.3.5 yarn-site.xml

<configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.nodemanager.resource.memory-mb</name>
    <value>1024</value>
  </property>
</configuration>

3.4 SSH免密配置

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys
ssh localhost  # 首次连接需确认

常见问题处理：

若出现Permission denied (publickey)错误，检查/etc/ssh/sshd_config中PubkeyAuthentication yes
使用ssh -v localhost调试连接过程

四、启动与验证：关键步骤详解

4.1 格式化NameNode

hdfs namenode -format
# 成功输出应包含：Storage directory /tmp/hadoop/dfs/name has been successfully formatted.

警告：重复格式化会导致数据丢失，生产环境需谨慎操作

4.2 启动HDFS服务

start-dfs.sh
# 正常应启动三个进程：NameNode、DataNode、SecondaryNameNode

验证进程状态：

jps
# 应看到类似输出：
# 1234 NameNode
# 1235 DataNode
# 1236 SecondaryNameNode

4.3 启动YARN服务

start-yarn.sh
# 验证ResourceManager和NodeManager
jps | grep -E "ResourceManager|NodeManager"

4.4 Web界面验证

HDFS管理界面：http://localhost:9870
YARN资源管理：http://localhost:8088

典型问题排查：

若页面无法访问，检查防火墙设置：

sudo ufw allow 9870/tcp
sudo ufw allow 8088/tcp

查看日志定位错误：

tail -100f $HADOOP_HOME/logs/hadoop-*-namenode-*.log

五、测试验证：运行示例程序

5.1 创建HDFS目录

hdfs dfs -mkdir /input
hdfs dfs -put $HADOOP_HOME/etc/hadoop/*.xml /input

5.2 运行WordCount示例

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar \
  wordcount /input /output

5.3 查看结果

hdfs dfs -cat /output/part-r-00000
# 应输出XML文件中单词的统计结果

六、常见问题解决方案

6.1 内存不足错误

现象：Container is running beyond physical memory limits

解决方案：

修改mapred-site.xml：

<property>
<name>mapreduce.map.memory.mb</name>
<value>1024</value>
</property>
<property>
<name>mapreduce.reduce.memory.mb</name>
<value>2048</value>
</property>

增加系统swap空间：

sudo fallocate -l 2G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile

6.2 端口冲突处理

检查占用端口：

netstat -tulnp | grep -E "9000|9870|8088"

修改配置（如需变更端口）：

在core-site.xml中修改fs.defaultFS
在hdfs-site.xml中修改dfs.namenode.http-address

6.3 数据节点启动失败

典型日志：Incompatible namespaceID

解决方案：

停止所有服务：stop-all.sh
删除数据目录：
```
rm -rf /tmp/hadoop/dfs/data/*
```
重新格式化并启动

七、进阶配置建议

7.1 日志级别调整

在log4j.properties中修改：

log4j.logger.org.apache.hadoop=DEBUG

7.2 性能调优参数

<!-- hdfs-site.xml -->
<property>
  <name>dfs.blocksize</name>
  <value>134217728</value>  <!-- 128MB -->
</property>
<property>
  <name>dfs.datanode.handler.count</name>
  <value>10</value>
</property>

7.3 集成本地IDE

以IntelliJ IDEA为例：

添加Hadoop依赖：

<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>3.3.4</version>
</dependency>

配置运行参数：

-DHADOOP_HOME=/opt/hadoop
-Djava.library.path=$HADOOP_HOME/lib/native

八、总结与最佳实践

开发环境隔离：建议使用Docker容器封装Hadoop环境，示例命令：

docker run -it --name hadoop-single \
-p 9870:9870 -p 8088:8088 \
-v /tmp/hadoop:/tmp/hadoop \
sequenceiq/hadoop-docker:2.7.0

数据备份策略：定期备份/tmp/hadoop/dfs/name目录

版本管理：使用git管理配置文件变更，示例：

cd $HADOOP_HOME/etc/hadoop
git init
git add .
git commit -m "Initial Hadoop config"

性能基准测试：使用TestDFSIO进行IO性能测试：

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.3.4-tests.jar \
TestDFSIO -write -nrFiles 5 -fileSize 100

通过本文的详细指导，开发者可以系统掌握Hadoop单机环境的搭建方法，既能满足日常开发调试需求，又能为后续集群部署积累实践经验。建议在实际操作中结合官方文档（Hadoop Configuration）进行深入学习。

Hadoop部署单机：手把手教你搭建Hadoop单机环境