简介:本文将介绍 CHPC 集群涉及的基本概念。
集群指运行高性能计算的节点集合,可以提供单节点不能提供的强大计算能力,拥有高性能、弹性扩展、稳定可靠等优点。
本文将介绍 CHPC 集群涉及的基本概念。
CHPC 集群中的每个节点是一台BCC实例。
按节点功能分类,可以分为 登录及管控节点、计算节点。各节点功能如下表所示:
用于管理集群,部署调度服务和域账号服务。
调度服务:主要作用是运行 Slurm 等调度工具的服务端,处理作业提交、管理调度等。
重要:管控节点负责作业的管理调度和域账号解析,在管控节点谨慎进行编译软件、上传下载打包数据等操作,以免影响业务稳定性。
用于执行高性能计算作业的节点。
对于不同规模的集群,建议的管控节点配置和作业执行数量如下:
调度器是集群上调度作业的软件。CHPC支持的调度器如下:
域账号服务用于管理集群用户。CHPC 支持 LDAP 域账号服务:
百度智能云 CHPC 集群的用户数据、调度器信息、作业共享数据等信息均会存储在文件系统,以供集群所有节点共享访问。
百度智能云 CHPC 支持支持 CPFS-NFS 方式挂载 CFS 文件系统。
创建集群用户后,您才能在集群上提交、调试、运行作业。您可以创建两种不同权限的用户来使用集群。
创建中:集群创建初始状态,对应 BCC 实例创建和安装软件状态。
运行中:集群创建完成后处于正常可用状态。
异常:当管理节点被删除或停止、调度器软件退出时,集群状态为异常。您可以尝试修复集群,若修复无效后,请提交工单。
释放中:集群在停机释放过程中。