一、Hadoop简介
Hadoop是一个开源的分布式计算框架,由Apache基金会开发。它提供了一个分布式文件系统(HDFS)和一系列处理大数据的工具,如MapReduce、Hive、Pig等。Hadoop广泛应用于大数据处理和分析领域。
二、准备环境
- 安装JDK:Hadoop需要Java运行环境,确保你的系统已经安装了JDK,并且配置了JAVA_HOME环境变量。
- 下载Hadoop:从Apache Hadoop官网下载Hadoop 2.10.1的安装包。
- 准备Linux系统:确保你的Linux系统已经安装并配置好SSH、SSH无密码登录以及基本的开发工具。
三、安装和配置Hadoop - 解压Hadoop安装包:将下载的Hadoop安装包解压到指定目录,例如/opt/hadoop-2.10.1。
- 配置环境变量:编辑Hadoop的bin目录下的hadoop-env.sh文件,设置JAVA_HOME为JDK的安装路径。
- 配置core-site.xml:编辑Hadoop的conf目录下的core-site.xml文件,添加以下内容:
fs.defaultFS
hdfs://localhost:9000
- 配置hdfs-site.xml:编辑Hadoop的conf目录下的hdfs-site.xml文件,添加以下内容:
dfs.namenode.name.dir
/opt/hadoop-2.10.1/namenode
dfs.datanode.data.dir
/opt/hadoop-2.10.1/datanode
- 创建HDFS目录:在终端中执行以下命令创建HDFS的存储目录。
nfs -mkdir /user
nfs -mkdir /user/hadoop
nfs -chmod 777 /user/hadoop - 格式化HDFS:在终端中执行以下命令格式化HDFS。
hdfs namenode -format
四、启动Hadoop - 启动HDFS:在终端中执行以下命令启动HDFS。
hdfsStartup.sh start - 启动YARN:在终端中执行以下命令启动YARN。
yarnStartup.sh start
五、验证安装 - 查看HDFS状态:在终端中执行以下命令查看HDFS状态。
hdfs dfsadmin -report
如果一切正常,你应该能看到HDFS的存储状态和节点状态。 - 运行示例程序:在终端中执行以下命令运行一个简单的MapReduce示例程序,该程序用于统计输入文件的单词出现次数。
sbin/hadoop jar hadoop-examples-2.10.1.jar wordcount /input /output
nfs -ls /output # 查看输出结果目录中的结果文件
六、注意事项
在运行过程中遇到任何问题,检查Hadoop的日志文件(通常位于logs目录下),并根据日志中的错误信息进行排查。同时,确保你的网络配置正确,以便于Hadoop集群中的节点能够相互通信。