集群概述
所有文档
menu

云高性能计算平台 CHPC

集群概述

集群指运行高性能计算的节点集合,可以提供单节点不能提供的强大计算能力,拥有高性能、弹性扩展、稳定可靠等优点。
本文介绍集群涉及的基本概念和功能。

节点
CHPC集群中的每个节点是一台BCC实例。
按节点功能分类,可以分为 登录及管控节点、计算节点。各节点功能如下表所示:

登录及管控节点
用于远程登录集群,进行操作包括软件调试、编译和安装,以及作业提交等。
用于管理集群,部署调度服务和域账号服务。

  • 调度服务:主要作用是运行Slurm等调度工具的服务端,处理作业提交、管理调度等。
  • 域账号服务:集中管理CHPC集群内用户信息。
重要:管控节点负责作业的管理调度和域账号解析,在管控节点谨慎进行编译软件、上传下载打包数据等操作,以免影响业务稳定性。

计算节点
用于执行高性能计算作业的节点。

对于不同规模的集群,建议的管控节点配置和作业执行数量如下: image.png



调度器
调度器是集群上调度作业的软件。CHPC支持的调度器如下: image.png



域账号服务
域账号服务用于管理集群用户。
CHPC支持LDAP域账号服务:

  • LDAP:轻型目录访问协议(Lightweight Directory Access Protocol),在CHPC中,LDAP被用来对用户进行身份权限认证。您可以在LDAP中对用户进行授权,分组,以创建具有不同的访问权限的用户。

共享存储
CHPC集群的用户数据、调度器信息、作业共享数据等信息均会存储在文件系统,以供集群所有节点共享访问。
CHPC支持支持CPFS-NFS方式挂载CFS文件系统。


用户
创建集群用户后,您才能在集群上提交、调试、运行作业。您可以创建两种不同权限的用户来使用集群。

  • 普通权限组:适用于只有提交、调试作业需求的普通用户。
  • sudo权限组:适用于需要管理集群的管理员,除提交、调试作业外,还可以执行sudo命令进行安装软件、重启节点等操作。
  • 重要root用户仅能在创建集群时初始化创建,不推荐使用root用户提交任何作业,避免作业脚本中的误操作导致CHPC集群数据遭受破坏。 更多信息,请参见创建用户。

集群状态

  • 创建中:集群创建初始状态,对应BCC实例创建和安装软件状态。
  • 运行中:集群创建完成后处于正常可用状态。
  • 异常:当管理节点被删除或停止、调度器软件退出时,集群状态为异常。您可以尝试修复集群,若修复无效后,请提交工单。
  • 释放中:集群在停机释放过程中。
上一篇
产品定价
下一篇
创建公共云标准集群