监控报警
集群监控
集群监控为用户提供实时监控和管理集群状态、性能功能以及资源使用情况,以确保集群稳定运行。本章节详细介绍了关于查看监控指标的位置和操作。监控指标说明详见集群指标。
集群仪表盘
- 在集群列表中点击集群名称进入详情页,侧边导航找到监控详情-集群仪表盘。
- 集群仪表盘支持对时间范围进行筛选查看,右上角点击指标筛选还可以对指标进行筛选。筛选类型分为常用和其他,根据需要筛选指标项。
主机监控
- 主机监控列表可以看到具体主机运行状态和具体指标值,点击主机名称可进入详情查看具体指标值的图例形态。主机监控位于集群仪表盘下方,操作步骤可以参照集群仪表盘。
- 列表支持主机名称、实例id两种类型搜索。状态支持筛选(全部、已停止、运行中),并且指标可排序。
服务监控
- 进入集群监控详情页,选择侧边导航服务监控,能查看当前集群下的服务(已部署服务)的指标数据展示和概览信息。同时,可以进行时间选择和指标筛选。
- 服务下方是对应的组件,并且可看到组件部署对应的主机,以及主机的进程状态和各使用率。支持按照主机名进行筛选,进程状态可选(全部、进行中和已停止),且支持使用率排序。
集群报警
报警配置
BMR的报警配置都是在BCM侧进行配置的,BMR的报警配置分为BMR事件报警配置和BMR指标报警配置:
配置类型 | 类型说明 |
---|---|
BMR事件报警配置 | 针对BMR中监控对象(比如主机和组件进程)运行状态(比如down/up)的事件报警配置。 操作步骤: 1.在产品服务->云监控BCM页中,在侧边导航点击事件监控,参考BCM的事件监控说明,配置BMR的事件报警策略。 2.配置主机运行状态的事件报警策略,产品类型需要选择MapReduce BMR, 事件名称选择主机宕和主机宕恢复。 |
BMR指标报警配置 | 针对BMR中监控对象指标阈值的报警配置,比如CPU利用率,磁盘利用率超过阈值报警配置。 1.在产品服务->云监控 BCM页中,点击实例组,参考BCM的实例组说明,配置BMR的实例组以及实例组的报警策略。 2.创建完实例组后,参考BCM的添加实例组报警策略 创建实例组的指标报警策略。 |
报警管理
当您需要监控各云服务资源的使用和运行情况时,您可以对已接入BCM的云服务设置合理的报警策略,包括对于资源设置性能消耗类指标的阈值报警,也可以对实例或服务的状态即事件监控设置事件报警。 同时针对站点监控中的探测点、应用监控中的实例和自定义监控中的监控项也可以配置合理的报警策略。
添加报警策略
- 指标监控
- 登录百度智能云,选择云监控BCM,在左侧导航栏中点击报警管理—报警策略—指标报警,进入报警策略列表页面。
- 点击添加策略按钮,进入创建报警策略页面,填写表单信息完成指标监控策略创建,填写产品类型时需要选择MapReduce BMR。
- 事件监控
- 登录百度智能云,选择云监控BCM,在左侧导航栏中点击报警管理—报警策略—云产品事件,进入报警策略列表页面。
- 点击添加策略按钮,进入“创建报警策略”页面,填写相应的表单信息完成事件监控策略创建。填写产品类型时需要选择MapReduce BMR。
报警策略操作
- 登录百度智能云,选择云监控BCM,在左侧导航栏中点击报警管理—报警策略,进入报警策略列表页面。
- 点击操作列的复制、编辑、删除、启用、禁用按钮,您可以对单个报警策略进行复制、修改、启用、禁用或删除操作。 勾选策略名称前的复选框,您可以对报警规则进行批量删除,启用,禁用操作。
查看报警策略详情
- 登录百度智能云,选择云监控BCM,在左侧导航栏中点击报警管理—报警策略,进入报警策略列表页面。
- 点击报警策略名称链接,您可以查看当前报警策略的详情信息。
说明:为方便您对策略进行编辑操作,在报警策略详情界面也提供了复制、编辑、删除和启用/禁用按钮,您可在查看详情的同时直接在此页面进行相关操作。
说明:为方便您对策略进行编辑操作,在报警策略详情界面也提供了复制、编辑、删除和启用/禁用按钮,您可在查看详情的同时直接在此页面进行相关操作。
禁用/启用报警通知
- 登录百度智能云,选择云监控BCM,在左侧导航栏中点击报警管理—报警策略,进入报警策略列表页面。
- 在通知状态列进行操作,展示“ON”则报警通知开启,“OFF”则报警通知关闭。
报警回调
通过报警回调,可实现将BCM云监控的报警通知发送到您指定的URL。您可以自由、灵活的处理各类告警消息,BCM支持通过 HTTP/HTTPS协议 的 POST 请求推送到可访问公网 URL ,您可基于回调接口推送的报警信息做进一步的处理。如需通过企业微信、钉钉、如流等办公软件接收报警通知,请参见webhook使用说明。
操作步骤
报警回调功能的入口有三处:统一的创建报警策略入口、云服务下单个实例创建报警策略入口和创建报警通知模版入口。下面将具体描述报警回调的操作步骤:
表一 报警回调操作步骤
报警回调入口 | 具体步骤 |
---|---|
统一的创建报警策略入口 | 1.在左侧导航栏中点击报警管理—报警策略,在云产品监控的策略列表下,点击添加策略。 2.在创建策略页面,点击报警回调按钮开启,输入公网可访问的 URL 地址。 |
云服务下单个实例创建报警策略入口 | 1.在左侧导航栏中点击云产品监控,点击要查看的云产品,进入该云产品的实例列表页面。如查看云服务器BCC监控数据,点击云服务器监控,进入“云服务器列表”页面。然后选择对应的实例点击进入报警策略页面。 2.在实例报警策略页面,点击添加策略。 3.在“创建策略”页面,开启报警回调,输入公网可访问的 URL 地址。 |
创建报警通知模版入口 | 1.在左侧导航栏中点击报警管理—报警模版,在报警动作列表页面,点击添加模版。 2.在添加通知模版页面,接口回调一栏,输入公网可访问的 URL 地址。 |
webhook使用说明
表二 操作步骤说明
使用方式 | 使用步骤 |
---|---|
企业微信 | 1. 登录企业微信,打开需要接收告警通知的企业微信群。 2. 添加群机器人后,复制webhook地址,参考操作步骤填写到“报警回调”中即可。 3. 配置成功后,当报警通知被触发时,您可以在企业微信群收到报警通知。 |
钉钉 | 1. 登录钉钉,打开需要接收告警通知的钉钉群,添加群机器人。 2. 填写表单,“安全设置”模块勾选“自定义关键词”选项,建议填写“报警”作为关键词。 |
如流 | 1. 登录如流,打开需要接收告警通知的如流群。 2. 群内添加如流机器人,复制webhook地址,参考操作步骤填写到报警回调中即可。 3. 配置成功后,当报警通知被触发时,您可以在如流群收到报警通知。 |
POST方式参数说明
表四 指标报警POST方式参数说明
参数 | 说明 |
---|---|
alertId | 告警ID |
userId | 账号ID |
alarmName | 报警策略名称 |
scope | 云产品名称 |
policyType | 策略类型(指标报警和事件报警之一,Metric代表是指标报警,Event代表事件报警) |
alertStartTimestamp | 发生告警的时间戳 |
region | 报警对象所在的地域 |
monitoringObject | 发生报警的对象 |
alarmLevel | 报警等级状态。根据实际情况返回严重、通知、重要、警告四种状态中的一种 |
formula | 报警条件 |
currentValue | 报警发生或恢复时监控项的当前值 |
taskTimestamp | 报警回调发送时间 |
signature | 签名 |
表五 事件报警POST方式参数说明
参数 | 说明 |
---|---|
alarmName | 报警策略名称 |
scope | 云产品名称 |
alertStartTimestamp | 发生告警的时间戳 |
alertContent | 事件详情 |
taskTimestamp | 报警回调发送时间 |
signature | 签名 |
URL回调实例,下面是URL回调的使用实例,BCM发起的POST方式URL回调请求:
POST http://127.0.0.1:8201/callback
请求Body("Content-Type": "application/json"):
{
"alarmStatus":"报警-异常",
"alertId":"19925050-3f77-4839-bae7-6a5f721aae0c",
"userId":"your_user_id",
"alarmName":"test_bcc_alarm",
"scope":"BCE_BCC",
"policyType":"Metric",
"alertStartTimestamp":1698982559,
"region":"北京",
"monitoringObject":"i-6nfua8xc/bcc-test-bj/-(公)/192.168.16.12(内)",
"alarmLevel":"重要",
"formula":"CPU使用率1分钟平均值 > -1 %",
"currentValue":"CPU使用率=0.50%",
"taskTimestamp":1698982642,
"signature":"88e647b853e480046632a5eb9fef70f5"
}
在callback.java文件中接收POST参数并对消息进行校验:
// 从发送来的POST请求中解析出alertId、taskTimestamp 、signature这3个参数。使用alertId、token(创建报警策略时生成的token)和taskTimestamp 这3个参数字符串连接并用MD5算法加密后的值来校验消息。
如果校验成功,则说明此消息为百度云发出,否则为非法请求,不予处理。其中taskTimestamp可以用来做过期验证,如果时间戳与用户当前时间时间间隔大于某个周期(如10分钟),则用户可自行丢弃请求。
if (md5(alertId + token + taskTimestamp) == signature) {
..........
}
报警历史
当报警发生后,您可以在报警历史页面通过产品类型、报警等级、当前状态等条件筛选想要关注的报警信息。
查看报警历史
- 登录百度智能云,选择云监控BCM,在左侧导航栏中点击报警管理—报警历史,进入报警历史列表页面。
- 切换tab页,可以分别查看云产品监控、站点监控、自定义监控、应用监控的报警历史信息。
查看报警详情
- 登录百度智能云,选择云监控BCM,在左侧导航栏中点击报警管理—报警历史,进入报警历史列表页面。
- 在报警历史页面,点击报警内容打开您要查看的报警事件的详情页面。
- 在报警事件详情页面,可以查看该报警事件的基本信息,数据监控详情及该报警事件的状态变更历史。