一、环境准备
在开始搭建Hadoop分布式集群之前,需要准备以下环境:
- VMware虚拟化软件
- CentOS 7.5操作系统
- Xshell 6和Xftp 6远程连接工具
- JDK 1.8
- Hadoop 3.1.3 JAR包
注意:如果你的虚拟机是安装的桌面版本的Linux,需要卸载虚拟机中的JDK。这是安装桌面版本自带的。如果你的虚拟机是最小化安装,则不需要执行这一步。
二、安装和配置JDK 1.8 - 下载JDK 1.8安装包,解压到指定目录。
- 配置JAVA_HOME环境变量,指向JDK的安装目录。
- 将JDK的bin目录添加到PATH环境变量中。
- 验证JDK安装是否成功,运行java -version命令。
三、安装和配置Hadoop 3.1.3 - 下载Hadoop 3.1.3 JAR包,解压到指定目录。
- 配置HADOOP_HOME环境变量,指向Hadoop的安装目录。
- 将Hadoop的bin目录添加到PATH环境变量中。
- 创建Hadoop用户和用户组,并为用户分配sudo权限。
- 配置主机名和IP地址,确保每台机器的名称和IP地址都是唯一的。
- 在每台机器上创建相同的Hadoop目录结构,用于存储HDFS数据和日志文件。
- 在每台机器上配置相同的hadoop-site.xml文件,设置相同的NameNode、SecondaryNameNode和DataNode的地址和端口号。
四、配置SSH免密码登录
为了方便管理集群中的每台机器,需要配置SSH免密码登录。以下是在每台机器上执行的操作: - 生成SSH密钥对,将公钥复制到目标机器的~/.ssh/authorized_keys文件中。
- 配置/etc/hosts文件,添加主机名和IP地址映射。
- 配置/etc/ssh/sshd_config文件,启用PasswordAuthentication和RSAAuthentication选项。
- 重启SSH服务,使配置生效。
五、启动Hadoop集群
在每台机器上执行以下操作: - 切换到Hadoop用户。
- 启动HDFS:start-dfs.sh命令。
- 启动YARN:start-yarn.sh命令。
- 查看Hadoop进程状态:jps命令。
六、验证Hadoop集群功能 - 在终端上运行hadoop fs -ls命令,验证HDFS是否正常工作。
- 在终端上运行hadoop jar hadoop-examples.jar pi 10 10000命令,运行MapReduce程序计算π值的近似值,验证YARN是否正常工作。
至此,我们已经成功搭建了Hadoop 3.1.3分布式集群。通过本教程的学习,您将掌握Hadoop分布式系统的基本原理和实践技能,为进一步学习和应用打下坚实的基础。