大盘告警配置管理
更新时间:2024-11-21
通过创建监控告警,您可以制定针对特定指标数值进行告警。当告警事件的条件满足后,系统会自动通知您告警信息。
前提条件
- 已接入监控实例
- 需启用采集任务,具体参考文档:接入监控实例并启用采集任务
创建告警
- 登录百舸异构计算平台AIHC控制台,点击资源池名称,进入资源池详情页面。
- 点击关联监控实例(CPROM)进入监控实例详情
- 在左侧控制栏中选择告警配置,点击创建告警。
- 配置告警策略信息:
告警模板 | 告警名称 | 告警规则 | 告警内容 | 标签 | 注释 |
---|---|---|---|---|---|
资源统计-节点不可用报警 | 自定义 | (count((volcano_node_idle{clusterID="您的资源池ID",resource_type="totalGPU"}>0 and on (node_name) volcano_node_status{node_reason="NotReady"}) or (volcano_node_idle{resource_type="totalGPU"}>0 and on (node_name)volcano_node_status{node_reason="Unschedulable"}))) > 0 | 百度智能云-百舸异构计算平台-告警消息,资源池:{{ $labels.clusterID }} ,不可用节点 > 0 ,请关注 | 标签名称:clusterID 标签值:您的资源池ID |
自定义 |
4.1. 告警规则获取:
4.1.1. 进入观测资源页面点击所需仪表盘设置,点击弹窗中 Inspect 中的 Panel JSON
4.1.2. 在找到您所需指标对应options和value,例如:图中所选options为value #D,value为不可用节点数
4.1.3. 通过options对应的refId(图中为D)找到所需指标字段,复制指标对应expr字段(删除路径中的“\”,将$clusterID替换为您的集群ID)
4.2. 填入告警规则中,在字段后自定义添加告警条件,例如:(example) > 0 为当example的值大于0时发出告警
- 配置通知策略,包括策略名称、通知时段、通知周期、通知方式、通知对象、告警升级等,可选择已有通知策略模板或新建自定义通知模板。
- 点击“创建”,创建告警策略和对应的通知策略。
管理告警策略
- 创建告警策略成功后,在“监控实例 > 告警配置”中可查看当前监控实例的告警策略列表,展示告警名称、告警规则、持续时间、通知策略、状态等信息。
- 在告警策略的操作列中,点击“编辑”,即可修改告警策略的信息。
删除告警策略
创建告警策略成功后,在“监控实例 > 告警配置”中可查看当前监控实例的告警策略列表,在告警策略的操作列中,点击“删除”,在二次确认弹窗中,点击“确认”,即可删除告警策略,相关告警规则自动失效。
注:告警策略暂不支持自定义模板保存和管理,删除后将无法找回,请谨慎操作。