查看GPU云服务器监控
更新时间:2023-09-04
对比BCC云服务器,GPU云服务器中包含额外的硬件,例如GPU卡以及RDMA网卡。GPU云服务器支持对这些硬件资源进行监控,相关的监控指标项可在云产品指标列表中查询。以下为如何查看GPU实例的监控数据。
GPU监控和GPU扩展监控依赖实例已安装了GPU驱动,如何安装GPU驱动可参考 GPU创建。
GPU监控
- 选择“产品服务>云监控BCM”,左侧侧边栏选择云产品监控并选择云服务器BCC。
- 选择您需要查看监控数据的实例,点击GPU卡监控页面,在此页面可以查看GPU卡监控。
RDMA监控
- 选择“产品服务>云监控BCM”,左侧侧边栏选择云产品监控并选择云服务器BCC。
- 选择您需要查看监控数据的实例,点击RDMA网卡监控页面,在此页面可以查看RDMA网卡监控。
GPU扩展监控
如标准的GPU监控项无法满足您的数据采集需求,GPU云服务器可提供额外的GPU监控项。由于GPU扩展监控项会带来较高的工作负载,请您结合业务情况按需开启。以下为如何查看GPU实例的GPU扩展监控数据。
- 选择“产品服务>云监控BCM”,左侧侧边栏选择云产品监控并选择云服务器BCC。
- 选择您需要查看监控数据的实例,点击GPU卡监控页面,在此页面可以查看GPU扩展监控。
GPU扩展监控依赖3.0以上的DCGM组件,可登录实例并通过以下命令查看dcgmi版本
dcgmi --version
通过以下命令启动相关服务:
nv-hostengine
systemctl restart bcm-agent
回显如下:
如果当前实例未安装dcgm组件,您可选择以下的方式之一安装:
方法一:通过BCC控制台自选GPU驱动安装
在创建实例或者重装实例时,如您选择了公共镜像和自选GPU驱动,系统会自动帮您安装DCGM组件。
请选择安装450版本以上的驱动以获取符合要求的dcgm版本
方法二:通过云助手安装
登录云助手控制台并 选择执行安装Nvidia DCGM