搜索本产品文档关键词
MLU270资源监控
所有文档
menu
没有找到结果,请重新输入

智能边缘 BIE

MLU270资源监控

前言

本文介绍百度智能边缘BIE如何纳管使用MLU270-S4智能加速卡的边缘节点,并实现对MLU270-S4智能加速卡的资源监控。

操作指南

  1. 创建一个边缘节点,AI加速卡选择寒武纪思元270,如下图所示:

mlu270node.png

  1. 进入到节点详情界面,点击安装,在弹出框当中复制节点安装命令,然后在边缘节点上运行。

image.png

如果边缘节点没有安装docker+k3s,请先安装docker+k3s。

  1. 安装寒武纪驱动MLU270_Driver,从寒武纪官网下载。安装完毕以后,执行cnmon查看,此时算力使用为0%,如下图所示:

WX20211229-225229@2x.png

  1. 节点安装边缘以后,我们在边缘侧可以看到一个叫做baetyl-gpu-metrics的pod,由它负责采集AI加速卡的资源使用信息。
baetyl@ML270:~$ kubectl get pod -A
NAMESPACE            NAME                                      READY   STATUS    RESTARTS   AGE
kube-system          metrics-server-7566d596c8-x8trf           1/1     Running   1          14h
kube-system          coredns-7944c66d8d-njdsc                  1/1     Running   1          14h
baetyl-edge-system   baetyl-agent-bmqgyrw3g-p7rn2              1/1     Running   0          14h
baetyl-edge-system   baetyl-broker-iggvn2aqr-6fcd44fc7-r8h9f   1/1     Running   0          14h
baetyl-edge-system   baetyl-init-eqtmqbt6y-5964698749-njhpd    1/1     Running   0          14h
baetyl-edge-system   baetyl-core-u6arc4uaf-85455bd857-nd26x    1/1     Running   0          14h
baetyl-edge-system   baetyl-gpu-metrics-gblfrtgwi-r6kct        1/1     Running   0          14h
  1. 执行一个AI模型服务调用脚本,AI模型使用AI加速卡算力资源。
  2. 在边缘侧使用cnmon查看资源使用率,此时算力使用为11%,如下所示:

WX20211229-225638@2x.png

  1. 返回到云端节点详情,找到AI加速卡,查看AI加速卡资源监控信息,与边缘度的算力资源使用是一致的,如下所示:

WX20211229-225119@2x.png

  1. 边缘端与云端指标映射信息如下表所示:
边缘端 云端 数值 备注
Card 编号 1
Name 名称 MLU270-S4
Temp 温度(℃) 87
Pwr:Usage 能耗(W) 35
Memory-Usage 物理内存使用情况 2.76 GiB/16 GiB
物理内存使用率 17.24% 云端计算值
vMemory-Usage 虚拟内存使用情况 10.07 GiB/1TiB
虚拟内存使用率 0.98% 云端计算值
Util 算力利用率 11.00%
上一篇
华为昇腾
下一篇
比特大陆