昆仑芯片资源监控
更新时间:2022-03-29
前言
本文介绍百度智能边缘BIE如何纳管使用百度昆仑加速卡的边缘节点,并实现对昆仑加速卡的资源监控。
操作指南
- 创建一个边缘节点,AI加速卡选择百度昆仑,如下图所示:

- 进入到节点详情界面,点击安装,在弹出框当中复制节点安装命令,然后在边缘节点上运行。

如果边缘节点没有安装docker+k3s,请先安装docker+k3s。
- 安装昆仑官方驱动,安装完毕以后,执行xpu_smi查看,此时算力使用为0%,如下图所示:

- 节点安装边缘以后,我们在边缘侧可以看到一个叫做baetyl-accelerator-metrics的pod,由它负责采集AI加速卡的资源使用信息。
                Bash
                
            
            1root@kylin-master-0:~$ kubectl get pod -A
2NAMESPACE            NAME                                       READY   STATUS    RESTARTS   AGE
3kube-system          metrics-server-7566d596c8-x8trf            1/1     Running   1          14h
4kube-system          coredns-7944c66d8d-njdsc                   1/1     Running   1          14h
5baetyl-edge-system   baetyl-agent-bmqgyrw3g-p7rn2               1/1     Running   0          14h
6baetyl-edge-system   baetyl-broker-iggvn2aqr-6fcd44fc7-r8h9f    1/1     Running   0          14h
7baetyl-edge-system   baetyl-init-eqtmqbt6y-5964698749-njhpd     1/1     Running   0          14h
8baetyl-edge-system   baetyl-core-u6arc4uaf-85455bd857-nd26x     1/1     Running   0          14h
9baetyl-edge-system   baetyl-accelerator-metrics-gblfrtgwi-r6kct 1/1     Running   0          14h- 返回到云端节点详情,找到AI加速卡,查看AI加速卡资源监控信息,与边缘端的算力资源使用是一致的,如下所示:

- 边缘端与云端指标映射信息如下表所示:
| 边缘端 | 云端 | 数值 | 备注 | 
|---|---|---|---|
| PCI Addr | 地址 | 0000:15:00.0 | |
| Model | 型号 | K200 | |
| SN | 序列号 | 0200201201003273 | |
| INODE | 挂载路径 | /dev/xpu0 | |
| State | 状态 | N | |
| Temp | 温度(℃) | 36 | |
| Power(W) | 能耗(W) | 38 | |
| Freq(MHz) | 频率 | 900 | |
| Memory | 内存使用情况 | 65/8064 MB | |
| 无 | 内存使用率 | 0.81% | 后端计算量 | 
| UseRate | 算力利用率 | 0.00% | 
