昇腾310资源监控
更新时间:2022-03-29
前言
本文介绍百度智能边缘BIE如何纳管使用华为昇腾加速卡的边缘节点,并实现对华为昇腾加速卡的资源监控。
操作指南
- 创建一个边缘节点,AI加速卡选择华为昇腾310,如下图所示:
- 进入到节点详情界面,点击安装,在弹出框当中复制节点安装命令,然后在边缘节点上运行。
如果边缘节点没有安装docker+k3s,请先安装docker+k3s。
- 安装华为昇腾官方驱动,安装完毕以后,执行npu_smi查看,此时算力使用为0%,如下图所示:
- 节点安装边缘以后,我们在边缘侧可以看到一个叫做baetyl-accelerator-metrics的pod,由它负责采集AI加速卡的资源使用信息。
root@ecs-8c28:~# kubectl get po -A
NAMESPACE NAME READY STATUS RESTARTS AGE
kube-system metrics-server-9cf544f65-kjq7n 1/1 Running 0 2m41s
kube-system coredns-85cb69466-87k4r 1/1 Running 0 2m41s
baetyl-edge-system baetyl-init-79cd7d9fdc-l7vfs 1/1 Running 0 108s
baetyl-edge-system baetyl-core-zgjfs69rl-5644c99fb9-4nnb2 1/1 Running 0 64s
baetyl-edge-system baetyl-agent-tlwzktfrg-25vhh 1/1 Running 0 53s
baetyl-edge-system baetyl-broker-5q2h88kqh-5bccd9ff5c-2fz4g 1/1 Running 0 51s
baetyl-edge-system baetyl-accelerator-metrics-lkdaspyyx-cdl88 1/1 Running 0 50s
- 返回到云端节点详情,找到AI加速卡,查看AI加速卡资源监控信息,与边缘端的算力资源使用是一致的,如下所示:
- 边缘端与云端指标映射信息如下表所示:
边缘端 | 云端 | 数值 | 备注 |
---|---|---|---|
无 | 编号 | 1 | 按顺序生成 |
Name | 名称 | 310 | |
Device | 设备 | 0 | |
Health | 状态 | OK | |
Temp(C) | 温度(℃) | 52 | |
Power(W) | 能耗(W) | 12.8 | |
Memory-Usage(MB) | 内存使用情况 | 2703/8192 | |
无 | 内存使用率 | 33.00% | 后端计算生成 |
AICore(%) | 算力利用率 | 0% |