MLU270资源监控
更新时间:2021-12-29
前言
本文介绍百度智能边缘BIE如何纳管使用MLU270-S4智能加速卡的边缘节点,并实现对MLU270-S4智能加速卡的资源监控。
操作指南
- 创建一个边缘节点,AI加速卡选择寒武纪思元270,如下图所示:
- 进入到节点详情界面,点击安装,在弹出框当中复制节点安装命令,然后在边缘节点上运行。
如果边缘节点没有安装docker+k3s,请先安装docker+k3s。
- 安装寒武纪驱动MLU270_Driver,从寒武纪官网下载。安装完毕以后,执行cnmon查看,此时算力使用为0%,如下图所示:
- 节点安装边缘以后,我们在边缘侧可以看到一个叫做baetyl-gpu-metrics的pod,由它负责采集AI加速卡的资源使用信息。
baetyl@ML270:~$ kubectl get pod -A
NAMESPACE NAME READY STATUS RESTARTS AGE
kube-system metrics-server-7566d596c8-x8trf 1/1 Running 1 14h
kube-system coredns-7944c66d8d-njdsc 1/1 Running 1 14h
baetyl-edge-system baetyl-agent-bmqgyrw3g-p7rn2 1/1 Running 0 14h
baetyl-edge-system baetyl-broker-iggvn2aqr-6fcd44fc7-r8h9f 1/1 Running 0 14h
baetyl-edge-system baetyl-init-eqtmqbt6y-5964698749-njhpd 1/1 Running 0 14h
baetyl-edge-system baetyl-core-u6arc4uaf-85455bd857-nd26x 1/1 Running 0 14h
baetyl-edge-system baetyl-gpu-metrics-gblfrtgwi-r6kct 1/1 Running 0 14h
- 执行一个AI模型服务调用脚本,AI模型使用AI加速卡算力资源。
- 在边缘侧使用cnmon查看资源使用率,此时算力使用为11%,如下所示:
- 返回到云端节点详情,找到AI加速卡,查看AI加速卡资源监控信息,与边缘度的算力资源使用是一致的,如下所示:
- 边缘端与云端指标映射信息如下表所示:
边缘端 | 云端 | 数值 | 备注 |
---|---|---|---|
Card | 编号 | 1 | |
Name | 名称 | MLU270-S4 | |
Temp | 温度(℃) | 87 | |
Pwr:Usage | 能耗(W) | 35 | |
Memory-Usage | 物理内存使用情况 | 2.76 GiB/16 GiB | |
无 | 物理内存使用率 | 17.24% | 云端计算值 |
vMemory-Usage | 虚拟内存使用情况 | 10.07 GiB/1TiB | |
无 | 虚拟内存使用率 | 0.98% | 云端计算值 |
Util | 算力利用率 | 11.00% |