NVIDIA GPU资源监控
更新时间:2022-06-14
前言
本文介绍百度智能边缘BIE如何纳管使用NVIDIA GPU的边缘节点,并实现对NVIDIA GPU的资源监控。
说明:此处提到的使用NVIDIA GPU的边缘节点,一般特指使用了NVIDIA GPU AI加速卡的x86架构的GPU服务器,GPU AI加速卡可以是NVIDIA T4/P4/V100/A100/3090等。
依赖条件
要实现GPU资源监控,对于边缘节点有以下依赖条件:
- 边缘节点有NVIDIA GPU AI加速卡
- 边缘节点安装了NVIDIA docker,具体安装方式参考官网。
- 边缘节点安装了NVIDIA docker,并且 docker runtime 设置为了NVIDIA。
- 边缘节点使用容器模式运行。
设置docker runtime为nvidia
边缘节点安装docker以后,默认的runtime可能不是nvidia。可以通过执行 docker info | grep Runtime
查看docker 的 runtime。
如果不是nvidia,此时需要更改Docker的daemon.json配置文件,文件路径通常为/etc/docker/daemon.json,添加如下配置即可。
{
"default-runtime": "nvidia",
"runtimes": {
"nvidia": {
"path": "/usr/bin/nvidia-container-runtime",
"runtimeArgs": []
}
}
}
编辑完毕以后,重启docker,执行如下命令:
sudo systemctl daemon-reload
sudo systemctl restart docker
操作指南
1.创建一个边缘节点,AI加速卡选择NVIDIA GPU,如下图所示:
如果创建节点时没有选择AI加速卡,后续可以在边缘节点详情界面动态修改,如下所示: