搜索本产品文档关键词
大盘告警配置管理
所有文档
menu
没有找到结果,请重新输入

百舸异构计算平台 AIHC

大盘告警配置管理


通过创建监控告警,您可以制定针对特定指标数值进行告警。当告警事件的条件满足后,系统会自动通知您告警信息。

前提条件

创建告警

  1. 登录百舸异构计算平台AIHC控制台,点击资源池名称,进入资源池详情页面。

image.png

  1. 点击关联监控实例(CPROM)进入监控实例详情

image.png

  1. 在左侧控制栏中选择告警配置,点击创建告警。

image.png

  1. 配置告警策略信息:
告警模板 告警名称 告警规则 告警内容 标签 注释
资源统计-节点不可用报警 自定义 (count((volcano_node_idle{clusterID="您的资源池ID",resource_type="totalGPU"}>0  and on (node_name) volcano_node_status{node_reason="NotReady"}) or (volcano_node_idle{resource_type="totalGPU"}>0 and on (node_name)volcano_node_status{node_reason="Unschedulable"}))) > 0 百度智能云-百舸异构计算平台-告警消息,资源池:{{ $labels.clusterID }} ,不可用节点 > 0 ,请关注 标签名称:clusterID
标签值:您的资源池ID
自定义

4.1. 告警规则获取:

4.1.1. 进入观测资源页面点击所需仪表盘设置,点击弹窗中 Inspect 中的 Panel JSON

image.png

4.1.2. 在找到您所需指标对应options和value,例如:图中所选options为value #D,value为不可用节点数

image.png

4.1.3. 通过options对应的refId(图中为D)找到所需指标字段,复制指标对应expr字段(删除路径中的“\”,将$clusterID替换为您的集群ID)

image.png

4.2. 填入告警规则中,在字段后自定义添加告警条件,例如:(example) > 0 为当example的值大于0时发出告警

image.png

  1. 配置通知策略,包括策略名称、通知时段、通知周期、通知方式、通知对象、告警升级等,可选择已有通知策略模板或新建自定义通知模板。

image.png

  1. 点击“创建”,创建告警策略和对应的通知策略。

管理告警策略

  1. 创建告警策略成功后,在“监控实例 > 告警配置”中可查看当前监控实例的告警策略列表,展示告警名称、告警规则、持续时间、通知策略、状态等信息。

image.png

  1. 在告警策略的操作列中,点击“编辑”,即可修改告警策略的信息。

image.png

删除告警策略

创建告警策略成功后,在“监控实例 > 告警配置”中可查看当前监控实例的告警策略列表,在告警策略的操作列中,点击“删除”,在二次确认弹窗中,点击“确认”,即可删除告警策略,相关告警规则自动失效。

注:告警策略暂不支持自定义模板保存和管理,删除后将无法找回,请谨慎操作。

image.png

上一篇
NVIDIA芯片资源观测
下一篇
镜像本地缓存管理