昆仑芯片资源监控
更新时间:2022-03-29
前言
本文介绍百度智能边缘BIE如何纳管使用百度昆仑加速卡的边缘节点,并实现对昆仑加速卡的资源监控。
操作指南
- 创建一个边缘节点,AI加速卡选择百度昆仑,如下图所示:
- 进入到节点详情界面,点击安装,在弹出框当中复制节点安装命令,然后在边缘节点上运行。
如果边缘节点没有安装docker+k3s,请先安装docker+k3s。
- 安装昆仑官方驱动,安装完毕以后,执行xpu_smi查看,此时算力使用为0%,如下图所示:
- 节点安装边缘以后,我们在边缘侧可以看到一个叫做baetyl-accelerator-metrics的pod,由它负责采集AI加速卡的资源使用信息。
root@kylin-master-0:~$ kubectl get pod -A
NAMESPACE NAME READY STATUS RESTARTS AGE
kube-system metrics-server-7566d596c8-x8trf 1/1 Running 1 14h
kube-system coredns-7944c66d8d-njdsc 1/1 Running 1 14h
baetyl-edge-system baetyl-agent-bmqgyrw3g-p7rn2 1/1 Running 0 14h
baetyl-edge-system baetyl-broker-iggvn2aqr-6fcd44fc7-r8h9f 1/1 Running 0 14h
baetyl-edge-system baetyl-init-eqtmqbt6y-5964698749-njhpd 1/1 Running 0 14h
baetyl-edge-system baetyl-core-u6arc4uaf-85455bd857-nd26x 1/1 Running 0 14h
baetyl-edge-system baetyl-accelerator-metrics-gblfrtgwi-r6kct 1/1 Running 0 14h
- 返回到云端节点详情,找到AI加速卡,查看AI加速卡资源监控信息,与边缘端的算力资源使用是一致的,如下所示:
- 边缘端与云端指标映射信息如下表所示:
边缘端 | 云端 | 数值 | 备注 |
---|---|---|---|
PCI Addr | 地址 | 0000:15:00.0 | |
Model | 型号 | K200 | |
SN | 序列号 | 0200201201003273 | |
INODE | 挂载路径 | /dev/xpu0 | |
State | 状态 | N | |
Temp | 温度(℃) | 36 | |
Power(W) | 能耗(W) | 38 | |
Freq(MHz) | 频率 | 900 | |
Memory | 内存使用情况 | 65/8064 MB | |
无 | 内存使用率 | 0.81% | 后端计算量 |
UseRate | 算力利用率 | 0.00% |