报警事件运维
所有文档
menu

运维编排 OOS

报警事件运维

概览

运维编排服务OOS会实时监测报警和事件信息,当云产品的监控指标达到预先设定的阈值触发报警,或者系统产生了云产品事件时,运维编排OOS会按照预先设置的策略执行对应的运维模板。报警事件运维与BCM云监控能力互通,您无需再次配置触发策略,运维编排OOS可以直接引用BCM监控报警和事件,打通了运维问题的解决链路,实现了基于预定策略的自动化运维,提升您的运维管理效率。

创建报警事件运维编排

  1. 登录 运维编排OOS控制台
  2. 点击报警事件运维菜单,点击列表页中的创建报警事件运维

监控报警触发的运维编排

适用于需要根据监控报警触发运维动作的场景,如当EIP实例带宽使用率超过80%时自动调整带宽。

image.png

  • 触发方式选择指标报警并按需选择云产品类型,例如您需要根据BCC的监控数据为触发条件,则此处选择云服务器BCC。
  • 按需选择监控报警策略,报警策略已经根据您选择的云产品类型进行了筛选。

说明: 指标报警策略来自于云监控BCM,如果下拉列表中没有您需要的指标报警策略,请点击创建报警策略前往BCM控制台创建。

  • 冷却时间用于防止短时间内重复产生的报警数据导致多次执行运维动作,在冷却时间内,针对同一报警策略产生的报警数据会被运维编排OOS忽略不触发运维动作,您可以按需调整冷却时间。
  • 监控对象与报警规则是您在云监控BCM控制台创建监控报警策略时定义的,因此此处仅作信息展示,无需调整。如果此处展示的对象和报警规则与您需求不一致,可以通过创建报警策略重新创建新的策略。

说明: 指标报警策略支持采用“与”和“或”的多条规则触发,更多创建报警策略的操作指导可参考BCM文档

事件触发的运维编排

适用于需要根据云产品事件触发运维动作的场景,如在抢占式实例释放前执行备份数据操作。

image.png

  • 触发方式选择云产品事件,随后选择具体的云产品类型,例如您需要根据释放抢占式BCC实例的事件作为触发条件,则此处云产品选择云服务器BCC。
  • 选择事件发生的地域,仅对应地域的事件会触发运维动作,目前仅支持单选。
  • 按需选择具体的事件名称,此处展示的事件已经根据您选择的云产品类型进行了筛选,例如您需要根据释放抢占式BCC实例的事件作为触发条件,则事件名称选择BCC抢占式实例释放事件。

说明: 云产品事件来自于云监控BCM,了解更详情的信息请参考云产品事件

  • 事件详情过滤规则用于在事件的详细信息中按照特定参数及其特定取值进行筛选,仅命中关键词和值的事件才会触发您设置的运维动作。此项非必填,如果您不需要过滤特定事件,保持此处为空即可。

说明: 您可以根据详情中的字段对云产品事件进一步过滤,过滤规则格式为[{"key":"xx","op":"xx","Value":"xx"}] 过滤规则中key即过滤的条件,op定义包含关系(一个值用=,多个值用in,不包含用not in), Value是要筛选出的一个或多个值,多个值用英文,间隔。 例如您仅需要过滤事件等级为NOTICE类型并且事件类型是GPU温度过高或BCC状态变化的通知,您可以在此处填入:

[
    {"key": "resource.eventLevel", "op": "=", "value": "NOTICE"},
    {"key": "resource.eventType", "op": "in", "value": ["GpuHighTemperature", "InstanceStateChange"]}
]

更多详细介绍请参考事件详情过滤规则填写说明

  1. 按需选择要执行的模板类型及模版。
  2. 填入报警事件运维名称和其他参数,其他参数可按需填写。

image.png

说明: 报警事件运维名称只能输入200个字符以内的中英文字符、数字和- _,且只能以中文汉字或英文字母开头。

  1. 根据您选择的模板,完成模板声明的需要定义的参数信息。例如针对实例执行脚本的模版,需要选定针对的具体实例和设定脚本内容等信息。

    说明: 模版参数的取值支持直接输入/选择固定值和引用全局参数,此外还支持引用报警事件消息体中的字段。模版参数的设置方式简述如下:

  • 选择固定值:通常情况下,该参数设置方式为下拉单选框,您可以直接选择其中的一项作为参数值。
  • 输入固定值:通常情况下,该参数设置方式数值输入框或文本输入框,您可以直接输入具体的参数内容。
  • 引用全局参数(输入函数):您可以直接在文本输入框内输入{{"Ref":""}},在“”中输入全局参数名的参数引用全局参数的值。
    • 引用报警事件消息体中的字段(输入函数):您可以直接在文本输入框内输入{{.消息体名.参数名}},来引提取消息字段,例如需要从报警详情(metric)中提取BCC实例id,参数值应该使用表达式 {{ .metric.shortInstanceId }} 部分常用消息体及其可引用的参数参见模板参数填写说明,查看更多云产品指标信息,查看更多云产品事件信息
  1. 点击提交即可完成创建,随后报警事件运维将在按照您设置的策略持续监控并在产生相应的报警和事件时触发执行,您可以通过点击操作列中的执行记录在执行管理中查看执行详情。

启用/禁用报警事件运维

报警事件运维后,默认为启用状态,如果你需要暂时停用报警事件运维,可以禁用对应的报警事件运维即可。

修改报警事件运维

您可以修改除了报警事件运维的名称之外的参数。

克隆报警事件运维

当您需要创建一个与现存运维编排类似的报警事件运维时,可以通过克隆功能快速创建。

报警事件运维详情

您可以点击报警事件运维列表中的名称打开详情,详情展示了创建报警事件运维时设置的参数信息。

基本信息

展示报警事件运维的基本参数,包含报警事件运维名称、模版类型、模板名称、状态、标签、描述等信息。

触发信息

展示报警事件运维的触发相关信息,包含触发方式、产品类型、触发的具体策略等

详情

展示模版配置的流程和任务信息,支持流程配置、YAML、JSON三种展示形式。

上一篇
定时运维
下一篇
模板参数填写说明