BM-SE5资源监控
更新时间:2022-05-13
前言
本文介绍百度智能边缘如何纳管比特大陆SE5计算盒,并实现SE5的资源监控。针对SC5的操作一致。
操作指南
- 创建一个边缘节点,AI加速卡选择比特大陆SE5/SC5,如下图所示:
 

- 进入到节点详情界面,点击安装,在弹出框当中复制节点安装命令,然后在边缘节点上运行。
 

如果SE5没有安装docker+k3s,请先安装docker+k3s。SE5默认出差带了docker,一般只需要安装k3s即可。
- 节点安装边缘以后,我们在边缘侧可以看到一个叫做baetyl-gpu-metrics的pod,由它负责采集SE5的tpu资源使用率等信息。
 
                Bash
                
            
            1linaro@BM1684-180:~$ kubectl get pod -A
2NAMESPACE            NAME                                      READY   STATUS    RESTARTS   AGE
3kube-system          metrics-server-7566d596c8-x8trf           1/1     Running   1          14h
4kube-system          coredns-7944c66d8d-njdsc                  1/1     Running   1          14h
5baetyl-edge-system   baetyl-agent-bmqgyrw3g-p7rn2              1/1     Running   0          14h
6baetyl-edge-system   baetyl-broker-iggvn2aqr-6fcd44fc7-r8h9f   1/1     Running   0          14h
7baetyl-edge-system   baetyl-init-eqtmqbt6y-5964698749-njhpd    1/1     Running   0          14h
8baetyl-edge-system   baetyl-core-u6arc4uaf-85455bd857-nd26x    1/1     Running   0          14h
9baetyl-edge-system   baetyl-gpu-metrics-gblfrtgwi-r6kct        1/1     Running   0          14h
            - 执行一个调用tpu的测试脚本
 - 在边缘侧使用bm-smi查看资源使用率,如下所示,资源使用率在8%~20%之间
 
                Plain Text
                
            
            1bm-smi
2Fri Dec 24 15:02:05 2021
3+----------------------------------------------------------------------------------------------+
4| SDK Version:  2.3.0             Driver Version:  2.3.0                                       |
5+-------------------+-------------------------------------------------+------------------------+
6| TPU Name      Mode|boardT chipT  TPU_P  TPU_V ECC CorrectN  Tpu-Util|12V_ATX       SN        |
7| Bus-ID      Status|Minclk Maxclk Curclk TPU_C  Memory-Usage         |MaxP    boardP     Fan  |
8|===================+=================================================+========================|
9|  0 1684-SOC    SOC| N/A   N/A      N/A    N/A  N/A    N/A     12%   |   N/A               N/A|
10|         N/A Active| 75M   550M   550M    N/A     16MB/ 7983MB       | N/A     N/A       N/A  |
11+===================+=================================================+========================+
12
13+----------------------------------------------------------------------------------------------+
14| Processes:                                                                        TPU Memory |
15|  TPU-ID       PID   Process name                                                  Usage      |
16|==============================================================================================|
17        0       813  /home/work/easyedge//sdk/cpp/demo/build/easyedge_serving      14MB
18        0       813  /home/work/easyedge//sdk/cpp/demo/build/easyedge_serving       1MB
            - 返回到云端节点详情,找到AI加速卡,查看AI加速卡资源监控信息,如下所示:
 

- 边缘端与云端指标映射信息如下表所示:
 
| 边缘端 | 云端 | 数值 | 备注 | 
|---|---|---|---|
| TPU | 编号 | 1 | |
| Name | 名称 | 1684-SOC | |
| Mode | 模式 | SOC | |
| Status | 状态 | Active | |
| Memory-Usage | 内存使用情况 | 17MiB/7.8GiB | |
| 无 | 内存使用率 | 0.21% | 云端计算值,实际使用内存/内存容量 | 
| Tpu-Util | 算力利用率 | 12.00% | 
