监控接入
一、百度智能云官方进入 Prometheus 监控服务(cprom)
1、百度智能云搜索监控,找到Prometheus 监控服务
2、点击立即使用,进入服务主页
二、购买配置cprom
1、登录百度智能云【Prometheus 监控】服务界面,配置cprom实例
2、填写实例名称,实例类型选择【云产品型】,Grafana一个账户只有一个,若没有就点击【新建 grafana服务】创建即可, 然后存储时长可以按需选择,然后确认创建实例
3、等待监控cprom实例状态从【创建中】变成【运行中】
4、登录grafana
5、点击设置(齿轮按钮),查看grafana数据源,确认新建的监控实例已添加,数据源和cprom实例名字相同,确实cprom配置完毕
三、确认信息
确认以下监控部署信息,用于部署集群监控服务。
1、访问TOKEN 点击cprom实例,然后点击生成TOKEN
记住生成的token
2、cprom实例ID
3、远程写地址Remote write
4、若需协助部署,需要确认k8s集群kubeconfig或者master机器登录方式,并提供给相关工作人员
四、构建及部署监控chart包服务
下载监控部署chart包,下载地址: https://aicp-public.bj.bcebos.com/cprom-monitor/k8s-monitor.tar
包含两类监控采集,一类是K8S集群标准监控,一类是GPU监控
4.1、K8S集群标准监控
下载后解压,并进入k8s-monitor目录 tar -zxf k8s-monitor.tar && cd k8s-monitor,并做以下修改:
1、vim ./aicp-monitor/values.yaml
按照下面规则进行修改
cce: k8s集群是否部署在cce集群上,是填true,不是填false
baige:k8s集群是否已安装百舸,是填true,不是填false,注意百舸组件安装包含gpu监控,所以如果这里填true,则步骤4.2 GPU监控采集步骤要跳过
namespace: k8s监控组件部署的ns,默认monitor
cluster:集群名称,用于在监控图表筛选区别集群数据,自行设置
region:集群地域,用于在监控图表筛选区别集群数据,自行设置
remoteWriteUrl:由"确认信息"步骤中确认的cprom远程写地址Remote write,后面加"/prometheus/api/v1/write" 构成
remoteWriteBearerToken:由"确认信息"步骤中确认的cprom访问TOKEN构成,填入的时候将访问TOKEN前缀的"Bearer "去掉,只填后面字符串
remoteWriteHeaders: 由"确认信息"步骤中确认的cprom实例ID构成,格式为"InstanceId:"加上cprom实例ID
2、部署
登录master机器或把kubeconfig拷贝到本地~/.kube/config
然后执行以下部署命令
#创建ns,为k8s监控组件部署的ns,默认monitor
kubectl create ns monitor
#helm安装, 部署包内自带helm
./helm install aicp-monitor aicp-monitor -n monitor
#查看helm部署情况
helm ls -n monitor
#查看pod情况
kubectl get pod -n monitor
#helm拆卸
#helm delete aicp-monitor -n monitor
3、检查
4.2、GPU监控采集
用于在未部署百舸组件的K8S集群上提供GPU监控,已部署百舸组件忽略此步骤
1、vim ./gpu-monitor/values.yaml
按照下面规则进行修改
namespace: GPU监控组件部署的ns,要和步骤4.1 K8S集群标准监控设置的一样,默认为monitor
2、部署
登录master机器或把kubeconfig拷贝到本地~/.kube/config
然后执行一下部署命令
#helm安装, 部署包内自带helm
./helm install gpu-monitor gpu-monitor -n monitor
#查看helm部署情况
helm ls -n monitor
#查看pod情况
kubectl get pod -n monitor
#helm拆卸
#helm delete aicp-monitor -n monitor
3、检查helm ls -n monitor
五、监控数据检查
当"构建及部署监控chart包服务"步骤完成后,客户可在grafana查询到上报指标
打开grafana,选择查询功能,选择对应的数据源
查询node-exporter的指标node_uname_info{},可以看到该实例的指标已经上到cprom