Hadoop 3.1.3 分布式集群搭建:从零到实战

作者:Nicky2024.02.04 13:25浏览量:8

简介:本文将详细介绍如何从零开始搭建Hadoop 3.1.3分布式集群,包括环境准备、安装和配置等步骤。通过本文的学习,您将掌握Hadoop分布式系统的基本原理和实践技能,为进一步学习和应用打下坚实的基础。

一、环境准备
在开始搭建Hadoop分布式集群之前,需要准备以下环境:

  1. VMware虚拟化软件
  2. CentOS 7.5操作系统
  3. Xshell 6和Xftp 6远程连接工具
  4. JDK 1.8
  5. Hadoop 3.1.3 JAR包
    注意:如果你的虚拟机是安装的桌面版本的Linux,需要卸载虚拟机中的JDK。这是安装桌面版本自带的。如果你的虚拟机是最小化安装,则不需要执行这一步。
    二、安装和配置JDK 1.8
  6. 下载JDK 1.8安装包,解压到指定目录。
  7. 配置JAVA_HOME环境变量,指向JDK的安装目录。
  8. 将JDK的bin目录添加到PATH环境变量中。
  9. 验证JDK安装是否成功,运行java -version命令。
    三、安装和配置Hadoop 3.1.3
  10. 下载Hadoop 3.1.3 JAR包,解压到指定目录。
  11. 配置HADOOP_HOME环境变量,指向Hadoop的安装目录。
  12. 将Hadoop的bin目录添加到PATH环境变量中。
  13. 创建Hadoop用户和用户组,并为用户分配sudo权限。
  14. 配置主机名和IP地址,确保每台机器的名称和IP地址都是唯一的。
  15. 在每台机器上创建相同的Hadoop目录结构,用于存储HDFS数据和日志文件。
  16. 在每台机器上配置相同的hadoop-site.xml文件,设置相同的NameNode、SecondaryNameNode和DataNode的地址和端口号。
    四、配置SSH免密码登录
    为了方便管理集群中的每台机器,需要配置SSH免密码登录。以下是在每台机器上执行的操作:
  17. 生成SSH密钥对,将公钥复制到目标机器的~/.ssh/authorized_keys文件中。
  18. 配置/etc/hosts文件,添加主机名和IP地址映射。
  19. 配置/etc/ssh/sshd_config文件,启用PasswordAuthentication和RSAAuthentication选项。
  20. 重启SSH服务,使配置生效。
    五、启动Hadoop集群
    在每台机器上执行以下操作:
  21. 切换到Hadoop用户。
  22. 启动HDFS:start-dfs.sh命令。
  23. 启动YARN:start-yarn.sh命令。
  24. 查看Hadoop进程状态:jps命令。
    六、验证Hadoop集群功能
  25. 在终端上运行hadoop fs -ls命令,验证HDFS是否正常工作。
  26. 在终端上运行hadoop jar hadoop-examples.jar pi 10 10000命令,运行MapReduce程序计算π值的近似值,验证YARN是否正常工作。
    至此,我们已经成功搭建了Hadoop 3.1.3分布式集群。通过本教程的学习,您将掌握Hadoop分布式系统的基本原理和实践技能,为进一步学习和应用打下坚实的基础。