弹性调整EIP实例带宽
概览
运维编排OOS的报警事件运维能力可以解决报警或者事件发生后都需要人工参与故障处理过程运维效率低的问题,本实践通过在云监控BCM设置EIP实例的带宽使用率指标报警策略,并关联运维模板,实现带宽使用率过高时自动化的增加带宽,带宽使用率过低时自动调低带宽,降低EIP实例成本的同时提升管理效率降低运维管理成本。
需求场景描述
很多企业的业务量会随时间变化和难以预料的原因出现强烈的峰谷水位变化,大规模网络流量给弹性公网IP带来巨大负载,一旦没有及时调整EIP带宽产生网络拥挤的情况,会导致业务响应延迟甚至是中断。以前要应对类似情况,需要运维值班人员24小时关注网络流量和EIP使用率的变化情况并手动调整网络带宽,导致运维成本居高不下。而且由于运维动作不及时的问题难以避免,运维质量也难以保障。如果您也遇到类似的问题,可以跟随本文的方法,借助运维编排OOS的报警事件运维能力,通过策略自动地调整EIP带宽,提升运维效率,降低运维人力成本。
前提条件
- 开通了运维编排OOS服务、弹性公网IP EIP服务和云监控BCM服务。
- 已经创建了EIP实例。
方案概述
百度智能云提供的云监控BCM能力可以实时监控云上资源的实时运行数据,并根据您设置的监控指标及报警策略记录和发送报警信息。运维编排OOS提供了报警事件运维能力,您可以通过把云监控BCM的指标报警和云产品事件信息作为触发运维操作的条件,一旦发生您预设的报警或事件时,运维编排OOS会自动化的执行对应的运维模板,实现自动化运维。
配置步骤
- 登录百度智能云。
- 通过产品服务点击“云监控BCM”进入云监控总览页面,在左侧导航栏中点击报警管理-报警策略,进入报警策略列表页面,点击添加策略,设置监控对象、报警触发策略规则(例如设置出带宽使用率1分钟平均值大于90%时触发报警)、通知方式等信息。如果您已经创建了报警策略,可以跳过这一步。
说明: 本实践中,产品类型需要选择EIP-弹性公网IP,监控对象选择您需要自动调整带宽的EIP。共享带宽EIP等其他网络资源的配置方式与EIP相似。
报警规则支持且和或,如果您需要满足所有规则触发时请使用且规则,如果满足任意规则就触发时请选择或规则。
一个报警策略只能选择一种产品类型,但可以选择同类型的一个或多个实例,请选择您希望弹性调整带宽的EIP实例。 更多配置细节的参见管理报警
- 通过产品服务点击“运维编排OOS”进入运维编排页面,选择模板管理 > 我的模板 > 创建模板。在基本信息填入模板名称,如本实践中您可以把名称填写为“自动调整EIP带宽”,以便后续定位和使用这一模版,然后按需可选配置标签和描述信息。
说明: 模板名称支持大小写字母、数字、中文以及-_ /.特殊字符,必须以字母或中文开头,长度1-200
- 在模板配置按您的使用习惯选择流程配置、YAML、JSON中的一种方式配置,例如选择流程配置
说明: 如果您已经通过YAML或JSON方式完成了模版,可以选择对应的方式,直接粘贴模版内容到代码输入框中,经过模版校验即可。
- 此步骤仅适用于把EIP作为全局参数在多处引用的场景,如果您仅需要监控和操作某一个特定EIP,可以不设置全局参数并跳过此步骤。在全局参数中点击添加参数,设置“eipid”为参数名称,这一参数可在新增任务时作为全局参数使用。
- 点击添加任务,任务类型选择调整EIP实例带宽,输入任务名称(如自动调整EIP带宽),按需设置重试次数和超时时间等信息,详细信息可以参考创建模版的说明。
- 切换到参数,如果您仅需要针对一个特定EIP进行监控报警运维,此处填入对应的EIP公网IP地址即可。如果您针对告警数据的中特定EIP执行调整带宽的动作,需要把实例ID设置为引用函数的方式,填如全局参数,即{"Ref": "eipid"} 。然后调整方式选择为“增加”,并按需填入要增加的公网带宽,如1Mbps。完成模板配置中的参数信息后点击保存。
- 点击保存模板,即可创建完成模板。
- 在左侧导航栏中点击报警事件运维,进入报警事件运维列表页面,点击创建报警事件运维,设置触发方式、模版、参数等信息。
- 触发方式选择指标报警,云产品类型选择弹性公网EIP。
- 选择您在云监控BCM创建的指标报警,此时监控对象与报警规则显示了您在云监控BCM控制台创建监控报警策略时定义的数据。
- 模板类型选择我的模板,选择您在模版管理中创建的自动调整EIP带宽模板。
- 填入报警事件运维名称和其他参数,其他参数可按需填写。
说明: 执行名称只能输入200个字符以内的中英文字符、数字和- _,且只能以中文汉字或英文字母开头。
-
单击下一步,设置要执行操作的弹性公网IP和调整的带宽。公网IP地址可以通过手动指定固定IP的方式,即直接填入要监控的公网IP地址
说明: 如果您需要根据报警事件消息中的参数确定要调整带宽的EIP,则可直接在文本输入框内输入{{.消息体名.参数名}},来引提取消息字段,例如需要从报警详情(metric)中提取BCC实例id,参数值应该使用表达式{{ .metric.resourceId }} 部分常用消息体及其可引用的参数参见模板参数填写说明。
- 点击提交,返回到列表即可查看到已经创建的报警事件运维。
- 当报警事件运维执行后,可以通过点击操作列中的执行记录,跳转到执行管理页面,并查看相关的全部执行记录。
- 点击详情,可以查看到的执行结果和输入参数等信息。