NVIDIA GPU资源监控

更新时间：2022-08-09

前言

本文介绍百度智能边缘BIE如何纳管使用NVIDIA GPU的边缘节点，并实现对NVIDIA GPU的资源监控。此处提到的使用NVIDIA GPU的边缘节点，一般特指使用了NVIDIA GPU AI加速卡的x86架构的GPU服务器，GPU AI加速卡可以是NVIDIA T4/P4/V100/A100/3090等。

依赖条件

要实现GPU资源监控，对于边缘节点有以下依赖条件：

边缘节点有NVIDIA GPU AI加速卡
边缘节点安装了NVIDIA Docker，具体安装方式参考官网。并且 docker runtime 设置为 nvidia。
边缘节点使用容器模式运行。

设置docker runtime为nvidia

边缘节点安装docker以后，默认的runtime可能不是nvidia。可以通过执行 docker info | grep Runtime 查看docker 的 runtime。

查看docker runtime.png

如果不是nvidia，此时需要更改Docker的daemon.json配置文件，文件路径通常为/etc/docker/daemon.json，添加如下配置即可。

{
    "default-runtime": "nvidia",
    "runtimes": {
        "nvidia": {
            "path": "/usr/bin/nvidia-container-runtime",
            "runtimeArgs": []
        }
    }
}

编辑完毕以后，重启docker，执行如下命令：

sudo systemctl daemon-reload
sudo systemctl restart docker

操作指南

1.创建一个边缘节点，AI加速卡选择NVIDIA GPU，如下图所示：

单机创建选择GPU监控.png

说明：如果创建节点时没有选择AI加速卡，后续可以在边缘节点详情界面动态修改AI加速卡类型。

执行边缘节点安装操作，将在边缘节点上自动部署baetyl-accelerator-metrics这个系统应用，用于采集GPU资源，如下图所示：

在边缘节点上查看NVIDIA GPU使用情况，执行nvidia-smi命令，得到结果如下：

nvidia-smi
Tue Aug  9 12:55:58 2022
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.42.01    Driver Version: 470.42.01    CUDA Version: 11.4     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA GeForce ...  Off  | 00000000:17:00.0 Off |                  N/A |
|  0%   36C    P8    11W / 350W |     68MiB / 24259MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|    0   N/A  N/A      1193      G   /usr/lib/xorg/Xorg                 56MiB |
|    0   N/A  N/A      1616      G   /usr/bin/gnome-shell                9MiB |
+-----------------------------------------------------------------------------+

进入节点详情，点击AI加速卡，可以看到AI加速卡详情，如下图所示：

5.边缘端与云端指标映射信息如下表所示：

边缘端	云端	数值	备注
GPU	编号	1
Name	名称	NVIDIA GeForce RTX 3090
Temp	温度(℃)	38
Pwr	能耗(W)	13.694
Memory-Usage	显存使用情况	52.25 MiB/23.69 GiB
无	GPU使用率	0.22	云端计算值，实际使用显存/显存容量

Jetson资源监控

GPU资源调度-显存共享

百度智能云

智能边缘 BIE

智能边缘 BIE

NVIDIA GPU资源监控

前言

依赖条件

设置docker runtime为nvidia

操作指南