报警中心
所有文档

          云原生微服务应用平台 CNAP

          报警中心

          前置条件

          CNAP平台的报警功能依赖于Prometheus组件,请先在组件中心为集群部署Prometheus组件。

          报警规则

          基础规则

          基础报警规则可以满足最常见报警需求,比如CPU、MEM阈值报警。我们为不同的资源粒度都提供了基础报警,您可以根据自己的需求进行选择。

          image.png

          • 规则名称:规则的名称,要求唯一,且不可改变;
          • 规则类型:规则的类型,支持基础、聚合、高级三种类型;
          • 报警资源:规则应用于哪一类资源,目前包括:地域、集群、节点、应用、环境、部署组、实例、微服务部署组、微服务容器组;
          • 筛选资源:默认规则应用于某类的所有资源,您可以点击编辑筛选条件,并在弹窗中筛选您想配置报警的资源:

          image.png

          • 筛选条件:由三部分组成:标签、操作符、值:

            • 标签:对应上图表格中的列名,每个标签只能配置一个筛选条件;
            • 操作符:指定如何筛选表格,支持:等于= 不等于!= 正则匹配=~ 正则不匹配!~
            • 值:筛选条件的值;

          上图表格中只展示出已经采集到指标数据的资源,但若使用正则进行筛选,新加入的、符合正则的资源也会应用本条报警。

          image.png

          • 报警规则:从左到右依次为:报警指标,持续时长,操作符,阈值:

            • 报警指标:根据什么指标触发报警;
            • 持续时长:支持立即生效,其适合用于日志关键字报警;
            • 操作符支持:< <= > >= == !=
            • 阈值:支持任意浮点数,不论正负;
          • 数据预览:当前时刻到30分钟前的指标数据预览,图中的红色虚线为阈值线;
          • 报警级别:支持四种报警级别:提示、次要、重要、紧急,不同报警级别所发送的报警邮件不同;
          • 附加标签:附加标签会随报警邮件一同发送,具体限制见上图;
          • 生效时间:规则在一天中哪个时段生效,支持配置凌晨时段;
          • 立即生效:新建规则后是否立即生效;
          • 发送间隔:报警邮件的发送频率。当报警结束后,会发送一封报警解除邮件;

          image.png

          • 通知对象:支持五种通知对象:邮箱、手机号、子用户、消息接收人、消息接收组;

          您可以点击【添加通知对象】添加新的子用户、消息接收人、消息接收组。子用户可以按下图配置手机和邮箱:

          image.png

          聚合规则

          聚合规则提供最细粒度的报警资源模板,您可以自己聚合出想要的维度。

          image.png

          • 报警资源:聚合规则中,目前支持:节点、实例、微服务部署组、微服务容器组;
          • 报警规则:您的自定义监控指标会在实例资源的报警指标中展示;
          • 聚合方法:不同的报警指标会有不同的聚合方法;

          image.png

          • 聚合标签:按什么为维度进行聚合,可指定多个;

          高级规则

          高级规则支持直接书写PromQL,具体语法请参考Prometheus的官方文档

          image.png

          • 报警规则:高级规则下,此处书写PromQL;
          • 生效策略:对应基础规则和聚合规则中的持续时间;
          • 数据预览:当前时刻到30分钟前的指标数据预览,没有阈值线;

          报警记录

          报警规则任一资源触发了阈值条件,就会产生一条报警记录。同一规则同一时间至多只有一条【报警中】的报警记录,【报警结束】的报警记录数量不限。

          image.png

          • 规则名称:模糊搜索规则名称对应的报警记录;
          • 时间范围:搜索开始时间在该时间范围中的报警记录;
          • 通知对象:搜索含有该通知对象的报警记录;
          • 记录ID:精确搜索一条报警记录;
          • 筛选条件:KV形式的搜索,支持您的附加标签;
          • 报警详情:报警记录的详情,点击后展开下述侧边栏:

          image.png

          • 数据预览:从【开始时间】到【结束时间】的数据预览,此处的指标数据只保留一个月;
          • 规则名称:对应报警规则的名称;
          • 报警状态:【报警中】或【报警结束】;
          • 报警级别:对应报警规则中配置的报警级别;
          • 报警规则:对基础规则和聚合规则以中文显示,高级规则展示PromQL;
          • 通知对象:对应规则配置的通知对象;
          • 开始时间:任一资源触发了报警规则的时刻;
          • 结束时间:所有资源不再触发报警规则的时刻;
          • 报警资源:触发了报警的资源汇总,和图上的曲线一一对应;

          报警通知

          支持邮件、短信两种报警通知形式。报警邮件:

          image.png

          报警短信:

          尊敬的用户,您的提示报警规则 zc-410-2 于 2020-04-10 被触发,访问下述链接查看详情:
          https://console.bce.baidu.com/cnap/#/alertrecord/alt-12345678
          「云原生微服务应用平台」
          上一篇
          微服务监控
          下一篇
          事件监控