BM-SE5资源监控
更新时间:2022-05-13
前言
本文介绍百度智能边缘如何纳管比特大陆SE5计算盒,并实现SE5的资源监控。针对SC5的操作一致。
操作指南
- 创建一个边缘节点,AI加速卡选择比特大陆SE5/SC5,如下图所示:
- 进入到节点详情界面,点击安装,在弹出框当中复制节点安装命令,然后在边缘节点上运行。
如果SE5没有安装docker+k3s,请先安装docker+k3s。SE5默认出差带了docker,一般只需要安装k3s即可。
- 节点安装边缘以后,我们在边缘侧可以看到一个叫做baetyl-gpu-metrics的pod,由它负责采集SE5的tpu资源使用率等信息。
linaro@BM1684-180:~$ kubectl get pod -A
NAMESPACE NAME READY STATUS RESTARTS AGE
kube-system metrics-server-7566d596c8-x8trf 1/1 Running 1 14h
kube-system coredns-7944c66d8d-njdsc 1/1 Running 1 14h
baetyl-edge-system baetyl-agent-bmqgyrw3g-p7rn2 1/1 Running 0 14h
baetyl-edge-system baetyl-broker-iggvn2aqr-6fcd44fc7-r8h9f 1/1 Running 0 14h
baetyl-edge-system baetyl-init-eqtmqbt6y-5964698749-njhpd 1/1 Running 0 14h
baetyl-edge-system baetyl-core-u6arc4uaf-85455bd857-nd26x 1/1 Running 0 14h
baetyl-edge-system baetyl-gpu-metrics-gblfrtgwi-r6kct 1/1 Running 0 14h
- 执行一个调用tpu的测试脚本
- 在边缘侧使用bm-smi查看资源使用率,如下所示,资源使用率在8%~20%之间
bm-smi
Fri Dec 24 15:02:05 2021
+----------------------------------------------------------------------------------------------+
| SDK Version: 2.3.0 Driver Version: 2.3.0 |
+-------------------+-------------------------------------------------+------------------------+
| TPU Name Mode|boardT chipT TPU_P TPU_V ECC CorrectN Tpu-Util|12V_ATX SN |
| Bus-ID Status|Minclk Maxclk Curclk TPU_C Memory-Usage |MaxP boardP Fan |
|===================+=================================================+========================|
| 0 1684-SOC SOC| N/A N/A N/A N/A N/A N/A 12% | N/A N/A|
| N/A Active| 75M 550M 550M N/A 16MB/ 7983MB | N/A N/A N/A |
+===================+=================================================+========================+
+----------------------------------------------------------------------------------------------+
| Processes: TPU Memory |
| TPU-ID PID Process name Usage |
|==============================================================================================|
0 813 /home/work/easyedge//sdk/cpp/demo/build/easyedge_serving 14MB
0 813 /home/work/easyedge//sdk/cpp/demo/build/easyedge_serving 1MB
- 返回到云端节点详情,找到AI加速卡,查看AI加速卡资源监控信息,如下所示:
- 边缘端与云端指标映射信息如下表所示:
边缘端 | 云端 | 数值 | 备注 |
---|---|---|---|
TPU | 编号 | 1 | |
Name | 名称 | 1684-SOC | |
Mode | 模式 | SOC | |
Status | 状态 | Active | |
Memory-Usage | 内存使用情况 | 17MiB/7.8GiB | |
无 | 内存使用率 | 0.21% | 云端计算值,实际使用内存/内存容量 |
Tpu-Util | 算力利用率 | 12.00% |