报警中心
更新时间:2020-04-16
前置条件
CNAP平台的报警功能依赖于Prometheus组件,请先在组件中心为集群部署Prometheus组件。
报警规则
基础规则
基础报警规则可以满足最常见报警需求,比如CPU、MEM阈值报警。我们为不同的资源粒度都提供了基础报警,您可以根据自己的需求进行选择。
- 规则名称:规则的名称,要求唯一,且不可改变;
- 规则类型:规则的类型,支持基础、聚合、高级三种类型;
- 报警资源:规则应用于哪一类资源,目前包括:地域、集群、节点、应用、环境、部署组、实例、微服务部署组、微服务容器组;
- 筛选资源:默认规则应用于某类的所有资源,您可以点击编辑筛选条件,并在弹窗中筛选您想配置报警的资源:
-
筛选条件:由三部分组成:标签、操作符、值:
- 标签:对应上图表格中的列名,每个标签只能配置一个筛选条件;
- 操作符:指定如何筛选表格,支持:等于
=
不等于!=
正则匹配=~
正则不匹配!~
; - 值:筛选条件的值;
上图表格中只展示出已经采集到指标数据的资源,但若使用正则进行筛选,新加入的、符合正则的资源也会应用本条报警。
-
报警规则:从左到右依次为:报警指标,持续时长,操作符,阈值:
- 报警指标:根据什么指标触发报警;
- 持续时长:支持立即生效,其适合用于日志关键字报警;
- 操作符支持:
<
<=
>
>=
==
!=
; - 阈值:支持任意浮点数,不论正负;
- 数据预览:当前时刻到30分钟前的指标数据预览,图中的红色虚线为阈值线;
- 报警级别:支持四种报警级别:提示、次要、重要、紧急,不同报警级别所发送的报警邮件不同;
- 附加标签:附加标签会随报警邮件一同发送,具体限制见上图;
- 生效时间:规则在一天中哪个时段生效,支持配置凌晨时段;
- 立即生效:新建规则后是否立即生效;
- 发送间隔:报警邮件的发送频率。当报警结束后,会发送一封报警解除邮件;
- 通知对象:支持五种通知对象:邮箱、手机号、子用户、消息接收人、消息接收组;
您可以点击【添加通知对象】添加新的子用户、消息接收人、消息接收组。子用户可以按下图配置手机和邮箱:
聚合规则
聚合规则提供最细粒度的报警资源模板,您可以自己聚合出想要的维度。
- 报警资源:聚合规则中,目前支持:节点、实例、微服务部署组、微服务容器组;
- 报警规则:您的自定义监控指标会在实例资源的报警指标中展示;
- 聚合方法:不同的报警指标会有不同的聚合方法;
- 聚合标签:按什么为维度进行聚合,可指定多个;
高级规则
高级规则支持直接书写PromQL,具体语法请参考Prometheus的官方文档。
- 报警规则:高级规则下,此处书写PromQL;
- 生效策略:对应基础规则和聚合规则中的持续时间;
- 数据预览:当前时刻到30分钟前的指标数据预览,没有阈值线;
报警记录
报警规则任一资源触发了阈值条件,就会产生一条报警记录。同一规则同一时间至多只有一条【报警中】的报警记录,【报警结束】的报警记录数量不限。
- 规则名称:模糊搜索规则名称对应的报警记录;
- 时间范围:搜索开始时间在该时间范围中的报警记录;
- 通知对象:搜索含有该通知对象的报警记录;
- 记录ID:精确搜索一条报警记录;
- 筛选条件:KV形式的搜索,支持您的附加标签;
- 报警详情:报警记录的详情,点击后展开下述侧边栏:
- 数据预览:从【开始时间】到【结束时间】的数据预览,此处的指标数据只保留一个月;
- 规则名称:对应报警规则的名称;
- 报警状态:【报警中】或【报警结束】;
- 报警级别:对应报警规则中配置的报警级别;
- 报警规则:对基础规则和聚合规则以中文显示,高级规则展示PromQL;
- 通知对象:对应规则配置的通知对象;
- 开始时间:任一资源触发了报警规则的时刻;
- 结束时间:所有资源不再触发报警规则的时刻;
- 报警资源:触发了报警的资源汇总,和图上的曲线一一对应;
报警通知
支持邮件、短信两种报警通知形式。报警邮件:
报警短信:
尊敬的用户,您的提示报警规则 zc-410-2 于 2020-04-10 被触发,访问下述链接查看详情:
https://console.bce.baidu.com/cnap/#/alertrecord/alt-12345678
「云原生微服务应用平台」