集群概述
更新时间:2024-09-25
集群指运行高性能计算的节点集合,可以提供单节点不能提供的强大计算能力,拥有高性能、弹性扩展、稳定可靠等优点。
本文介绍集群涉及的基本概念和功能。
节点
CHPC集群中的每个节点是一台BCC实例。
按节点功能分类,可以分为 登录及管控节点、计算节点。各节点功能如下表所示:
登录及管控节点:
用于远程登录集群,进行操作包括软件调试、编译和安装,以及作业提交等。
用于管理集群,部署调度服务和域账号服务。
- 调度服务:主要作用是运行Slurm等调度工具的服务端,处理作业提交、管理调度等。
- 域账号服务:集中管理CHPC集群内用户信息。
重要:管控节点负责作业的管理调度和域账号解析,在管控节点谨慎进行编译软件、上传下载打包数据等操作,以免影响业务稳定性。
计算节点:
用于执行高性能计算作业的节点。
对于不同规模的集群,建议的管控节点配置和作业执行数量如下:
调度器
调度器是集群上调度作业的软件。CHPC支持的调度器如下:
域账号服务
域账号服务用于管理集群用户。
CHPC支持LDAP域账号服务:
- LDAP:轻型目录访问协议(Lightweight Directory Access Protocol),在CHPC中,LDAP被用来对用户进行身份权限认证。您可以在LDAP中对用户进行授权,分组,以创建具有不同的访问权限的用户。
共享存储
CHPC集群的用户数据、调度器信息、作业共享数据等信息均会存储在文件系统,以供集群所有节点共享访问。
CHPC支持支持CPFS-NFS方式挂载CFS文件系统。
用户
创建集群用户后,您才能在集群上提交、调试、运行作业。您可以创建两种不同权限的用户来使用集群。
- 普通权限组:适用于只有提交、调试作业需求的普通用户。
- sudo权限组:适用于需要管理集群的管理员,除提交、调试作业外,还可以执行sudo命令进行安装软件、重启节点等操作。
- 重要root用户仅能在创建集群时初始化创建,不推荐使用root用户提交任何作业,避免作业脚本中的误操作导致CHPC集群数据遭受破坏。
更多信息,请参见创建用户。
集群状态
- 创建中:集群创建初始状态,对应BCC实例创建和安装软件状态。
- 运行中:集群创建完成后处于正常可用状态。
- 异常:当管理节点被删除或停止、调度器软件退出时,集群状态为异常。您可以尝试修复集群,若修复无效后,请提交工单。
- 释放中:集群在停机释放过程中。