什么是高性能计算集群?百度智能云 CHPC 集群管理(二)

作者:xxinjiang2025.01.02 17:57浏览量:1381

简介:CHPC

上文我们介绍了 CHPC 集群涉及的基本概念,有兴趣的小伙伴可以点击下文了解:

什么是高性能计算集群?百度智能云 CHPC 集群概述

欢迎大家了解 CHPC

今天将分享如何管理 CHPC 集群,本文将分为以下部分为大家逐一介绍:

  1. 创建公共云标准集群

  2. 创建混合云集群

  3. 登录集群

  4. 手动扩容集群

  5. 配置自动伸缩策略

  6. 释放集群

1、创建公共云标准集群

创建集群时,您需要配置集群的基础信息、网络配置、存储配置、节点配置等。 本文介绍如何在控制台页面创建公共云标准集群。

前提条件

  • 已开通CHPC服务,开通服务时,系统会自动创建服务关联角色。
  • 已创建专有网络VPC和安全组。具体操作,参见私有网络VPC
  • 已创建存储资源。CHPC集群支持挂载CFS文件系统。
    挂载CFS-POSIX:需开通CFS服务,创建CFS文件系统和挂载点。更多CFS相关信息,请参见CFS说明。

背景信息

集群可为CHPC计算提供计算资源、存储资源等,用于后续提交作业、调度作业、存储作业结果、查看作业结果。
创建和使用CHPC集群前请了解以下内容:

限制条件:一个地域下最多可创建3个集群,如需要创建多个集群,请提交工单。
费用说明:创建集群会产生一些费用,包括CHPC服务费用和其他资源费用。具体费用说明请参见计费概述。
注意事项:创建CHPC集群后,非特殊情况请勿使用云服务器管理控制台调整单个集群节点。建议您通过CHPC管理控制台操作。

步骤一:集群配置

创建集群时,您必须配置集群的基础信息、网络配置、存储配置。
您可以根据您的业务需求选择合适的配置参数。

登录CHPC控制台:百度智能云

  1. 在顶部菜单栏左上角处,选择地域。
  2. 在左侧导航栏,选择 集群管理。
  3. 在集群管理页面左上角,单击创建集群。
  4. 选择 公共云集群 部署模式。
  5. 完成基础配置内容填写。
    11a0831721717da3.png
  6. 完成集群配置内容填写。
    610129f0fc59b964.png
  7. 完成自定义选项内容填写。
    d4c023533d5f1770.png

步骤二:节点与队列

1.系统自动生成默认队列dafaultQueue,您可按需增加其他队列
2.支持开启和关闭“队列自动伸缩”
63a39c69714c16b3.png

步骤三:文件存储

1./home集群挂载目录必填
2./home/software集群挂载目录用于软件安装,和/home保持一样的文件系统及挂载点
3.支持按需添加其他的存储挂载,点击“添加存储”即可
90387540f8a77cb0.png

步骤四:软件与组件

1.您可以按需添加软件
ebcdfd427b89a2d5.png
2.您可以按需添加服务组件
c8615875c06f7a7d.png

步骤五:确认订单

1.确认配置概要信息
2.填写管理设置
96e773de4c642270.png

2、创建混合云集群

混合云集群指混合部署在本地和云上的集群,调度节点、域账号节点都在本地,计算节点在本地和云上。
您可以利用本地的HPC集群在百度智能云扩容计算节点资源,统一调度云上资源和您的本地资源进行高性能计算。
本文介绍如何通过CHPC管理控制台创建混合云集群。

前提条件

已开通CHPC服务,开通服务时,系统会自动创建服务关联角色。
已创建专有网络VPC和安全组。具体操作,参见私有网络VPC
已通过VPN或者物理专线搭建好本地和云上的网络连接。

步骤一:创建混合云集群

第一步,基本配置

登录CHPC控制台:百度智能云

  1. 在顶部菜单栏左上角处,选择地域。
  2. 在左侧导航栏,选择集群管理。
  3. 在集群管理页面左上角,单击创建集群。
  4. 选择 混合云集群 部署模式。
  5. 完成基础配置内容填写。
    9db6ffbf8c2e4850.png
  6. 完成集群配置内容填写
    be0fd9502e786970.png
  7. 完成共享存储和管理配置内容填写。
    1685b1a7aa37563c.png

第二步,确认订单

1.确认配置概要信息
2.填写管理设置
acd22b2d494d35c1.png

步骤二:在集群列表中,查看集群状态

可以在执行进度中,查看混合云集群创建部署情况。
5c2c01273a8afd33.png
根据执行进度和执行状态,修复检查。

3、登录集群

创建集群后您可以登录集群进行相关操作。

前提条件

已为集群登录节点分配固定公网IP或绑定EIP。
登录节点状态为运行中。
登录节点所在的安全组已放行对相应端口的访问。具体操作,参见私有网络VPC -安全组。

使用SSH工具登录

输入SSH命令。
ssh <用户名>@<集群的固定公网IP或EIP>
输入集群登录密码。
如果出现<用户名>@<主机名>:~#,表示成功连接到实例。

4、手动扩容集群

CHPC集群支持手动扩容,当业务发展导致集群计算节点不足时,您可以根据实际需求扩容集群,增加计算节点。

前提条件

扩容节点所在地域有可用子网,关于如何创建子网,请参见私有网络VPC-子网。
扩容节点所在地域有足够的BCC实例配额,具体操作,请参见查看和提升实例配额。

操作步骤

  • 登录CHPC控制台:百度智能云
  • 在顶部菜单栏左上角处,选择地域。
  • 在左侧导航栏,单击集群。
  • 在集群页面,找到需要扩容的集群,单击扩容节点。
  • 在扩容节点面板,完成节点配置。扩容时,支持增加新建节点,请根据需要选择对应的页签进行配置。

执行结果

扩容后,新增计算节点会自动安装集群软件并初始化,原有计算节点的使用不受影响。

您可以在集群列表中选择扩容的集群,点击集群名称,在节点管理列表中,即可查看已扩容节点的状态。当该节点状态为运行中,说明扩容集群已完成。

5、配置自动伸缩策略

自动伸缩可以根据您配置的伸缩策略动态分配计算节点实例,实现根据实时负载自动增加或减少计算节点,以提高集群可用性,降低使用成本。
本文介绍如何配置自动伸缩策略。

功能优势

自动伸缩可以实现以下功能:

根据实时负载,自动增加计算节点,提高集群的可用性。
在保证集群可用性的前提下,自动减少计算节点,降低集群成本。
停止异常状态的节点,并创建相应的新节点,提高集群容错能力。

使用限制

仅支持调度器为SLURM或SGE的集群配置自动伸缩。
不支持基于内存维度的自动伸缩。建议在提交作业时指定作业所需的vCPU来实现自动伸缩,另外作业指定的内存使用大小不能超出BCC资源的内存规格。

注意事项

自动伸缩服务依赖于调度器服务和域账号服务运行正常。开启自动伸缩后,管控节点需要一直保持运行中。

说明

如果管控节点需要关机或者重启,请在计算节点没有作业运行,并且自动伸缩已经释放了空闲节点后再进行操作。此时,建议您先关闭自动伸缩,在管控节点重新启动后,再开启自动伸缩。

操作步骤

  1. 登录弹性高性能计算控制台:百度智能云
  2. 在顶部菜单栏左上角处,选择地域。
  3. 在左侧导航栏,选择集群列表。
  4. 点击集群名称,进入集群概览页面。
  5. 点击队列管理,区域完成参数配置,在对应队列的操作栏,找到『配置扩缩容』按钮。
    eae8b07270952bd0.png
  6. 点击『配置扩缩容』,在弹出的页面中完成参数配置。
  7. 点击保存,操作成功。

7、释放集群

当集群不再使用时,您可以随时选择释放集群,以节约使用成本。
本文介绍如何释放集群。

前提条件

已备份好集群数据。

警告

释放集群后数据不可恢复,请谨慎操作。

背景信息

释放集群后,集群中的按量付费的节点将自动释放,到期前的包年包月节点会保留,到期后的包年包月节点会自动释放。

操作步骤

  1. 登录弹性高性能计算控制台:百度智能云
  2. 在顶部菜单栏左上角处,选择地域。
  3. 在左侧导航栏,单击集群。
  4. 在集群页面,选择需要释放的集群,单击操作栏 『释放』。
  5. 在弹出的删除集群对话框,单击确认。集群将进入释放中状态,释放完成后集群列表不再有此集群信息。

欢迎了解 CHPC