简介:CHPC
上文我们介绍了 CHPC 集群涉及的基本概念,有兴趣的小伙伴可以点击下文了解:
今天将分享如何管理 CHPC 集群,本文将分为以下部分为大家逐一介绍:
创建公共云标准集群
创建混合云集群
登录集群
手动扩容集群
配置自动伸缩策略
释放集群
创建集群时,您需要配置集群的基础信息、网络配置、存储配置、节点配置等。 本文介绍如何在控制台页面创建公共云标准集群。
集群可为CHPC计算提供计算资源、存储资源等,用于后续提交作业、调度作业、存储作业结果、查看作业结果。
创建和使用CHPC集群前请了解以下内容:
限制条件:一个地域下最多可创建3个集群,如需要创建多个集群,请提交工单。
费用说明:创建集群会产生一些费用,包括CHPC服务费用和其他资源费用。具体费用说明请参见计费概述。
注意事项:创建CHPC集群后,非特殊情况请勿使用云服务器管理控制台调整单个集群节点。建议您通过CHPC管理控制台操作。
创建集群时,您必须配置集群的基础信息、网络配置、存储配置。
您可以根据您的业务需求选择合适的配置参数。
登录CHPC控制台:百度智能云
1.系统自动生成默认队列dafaultQueue,您可按需增加其他队列
2.支持开启和关闭“队列自动伸缩”
1./home集群挂载目录必填
2./home/software集群挂载目录用于软件安装,和/home保持一样的文件系统及挂载点
3.支持按需添加其他的存储挂载,点击“添加存储”即可
1.您可以按需添加软件
2.您可以按需添加服务组件
1.确认配置概要信息
2.填写管理设置
混合云集群指混合部署在本地和云上的集群,调度节点、域账号节点都在本地,计算节点在本地和云上。
您可以利用本地的HPC集群在百度智能云扩容计算节点资源,统一调度云上资源和您的本地资源进行高性能计算。
本文介绍如何通过CHPC管理控制台创建混合云集群。
已开通CHPC服务,开通服务时,系统会自动创建服务关联角色。
已创建专有网络VPC和安全组。具体操作,参见私有网络VPC
已通过VPN或者物理专线搭建好本地和云上的网络连接。
登录CHPC控制台:百度智能云
1.确认配置概要信息
2.填写管理设置
可以在执行进度中,查看混合云集群创建部署情况。
根据执行进度和执行状态,修复检查。
创建集群后您可以登录集群进行相关操作。
已为集群登录节点分配固定公网IP或绑定EIP。
登录节点状态为运行中。
登录节点所在的安全组已放行对相应端口的访问。具体操作,参见私有网络VPC -安全组。
输入SSH命令。
ssh <用户名>@<集群的固定公网IP或EIP>
输入集群登录密码。
如果出现<用户名>@<主机名>:~#,表示成功连接到实例。
CHPC集群支持手动扩容,当业务发展导致集群计算节点不足时,您可以根据实际需求扩容集群,增加计算节点。
扩容节点所在地域有可用子网,关于如何创建子网,请参见私有网络VPC-子网。
扩容节点所在地域有足够的BCC实例配额,具体操作,请参见查看和提升实例配额。
扩容后,新增计算节点会自动安装集群软件并初始化,原有计算节点的使用不受影响。
您可以在集群列表中选择扩容的集群,点击集群名称,在节点管理列表中,即可查看已扩容节点的状态。当该节点状态为运行中,说明扩容集群已完成。
自动伸缩可以根据您配置的伸缩策略动态分配计算节点实例,实现根据实时负载自动增加或减少计算节点,以提高集群可用性,降低使用成本。
本文介绍如何配置自动伸缩策略。
自动伸缩可以实现以下功能:
根据实时负载,自动增加计算节点,提高集群的可用性。
在保证集群可用性的前提下,自动减少计算节点,降低集群成本。
停止异常状态的节点,并创建相应的新节点,提高集群容错能力。
仅支持调度器为SLURM或SGE的集群配置自动伸缩。
不支持基于内存维度的自动伸缩。建议在提交作业时指定作业所需的vCPU来实现自动伸缩,另外作业指定的内存使用大小不能超出BCC资源的内存规格。
自动伸缩服务依赖于调度器服务和域账号服务运行正常。开启自动伸缩后,管控节点需要一直保持运行中。
如果管控节点需要关机或者重启,请在计算节点没有作业运行,并且自动伸缩已经释放了空闲节点后再进行操作。此时,建议您先关闭自动伸缩,在管控节点重新启动后,再开启自动伸缩。
当集群不再使用时,您可以随时选择释放集群,以节约使用成本。
本文介绍如何释放集群。
已备份好集群数据。
释放集群后数据不可恢复,请谨慎操作。
释放集群后,集群中的按量付费的节点将自动释放,到期前的包年包月节点会保留,到期后的包年包月节点会自动释放。