云服务器事件中心概述
云服务器事件中心(原维修平台)是百度智能云提供的基于事件的云主机运维平台。当云服务器触发需要用户关注的事件时,例如系统故障,您可及时查看事件详情并进行处理,从而有效保障实例的可用性与业务的稳定运行。
核心价值
- 高效率运维:覆盖故障/风险诊断 → 通知告警 → 授权运维 → 结果验收等关键流程,支持全自动化处理,零人工介入。
- 故障覆盖广:自动检测系统故障类型,覆盖CPU、内存、GPU、网卡、磁盘等关键硬件设备。
- 主动预防:在硬件故障发生前预警,支持在业务低谷期主动运维,防患于未然,避免业务中断。
- 可预期运维:自主选择运维时机与执行方式,保障业务连续性与可控性。
适用场景
- 计划内运维(主动运维)
当检测到底层硬件存在潜在故障风险,但实例仍可正常运行时,您可通过本平台提前接收预警。这使您能够根据当前业务时期灵活规划并授权运维操作,从而在风险发生前主动排除隐患,避免对线上业务造成影响。
- 非预期运维(系统故障)
当硬件发生突发故障导致业务中断时,您可通过本平台快速获取诊断结论并授权维修。这能确保故障实例得到及时且规范的处置,最大限度缩短业务不可用时长,保障核心应用的连续性。
功能特性
- 精准的故障诊断
覆盖因故障导致的CPU、GPU、内存、PCIe链路、磁盘、网卡(VPC&RDMA)等关键硬件设备性能下降或不可用等故障类型,并精准定位到具体故障设备与影响程度。
- 多渠道实时通知
与BCM事件中心深度联动,支持通过邮件、短信、API、SDK等多种渠道推送事件。您可实时掌握从事件发生、授权、维修到验收的全流程状态变化,运维进度全程透明。
- 灵活的授权运维
提供手动授权、自动预授权等多种授权模式,满足您对不同业务场景的精细化管理需求,实现从“完全自主控制”到“全程托管”的平滑过渡。
- 全方位事件分析
完整记录所有运维事件的操作日志与处理过程,并支持对故障频率、处理时长等关键指标进行统计分析,为您的业务稳定性建设和资源规划提供数据支撑。
- 广泛的产品兼容
全面支持BCC、EBC、BBC等多种计算产品类型,为您在混合架构下的所有计算资源提供统一的硬件故障管理体验。
核心概念
运维事件
运维事件是云服务器事件中心的核心,当实例发生需要执行运维操作来规避或解决特定故障风险时,系统会自动在服务器事件中心生成运维事件,用户可查看、授权、验收服务器实例的维修。
事件状态
在事件中心控制台中展示的运维事件,按下表所属方式定义事件状态。
状态 | 含义 | 说明 |
---|---|---|
Inquiring | 待授权 | 等待用户授权事件并选择运维方式。 |
Processing | 处理中 | 已获授权,等待云厂商执行运维操作,实例可能随时被关机。 |
Executing | 运维中 | 运维操作正在执行中。 |
Executed | 已完成 | 运维操作已完成,用户可验收该实例是否已恢复。 |
Closed | 已结束 | 事件流程结束,信息记入事件记录。 |
说明: 处于Executed状态的运维事件,系统会自动在24小时完成验收,请您及时查看运维结束的实例状态。
运维事件状态变化流程图如下所示:
事件类型
在事件中心控制台展示的运维事件,可分为以下几种类型:
- 非预期运维 (UnplannedMaintenance)
描述: 系统故障运维。云服务器已突发故障,需执行运维操作以修复故障。
事件类型 | 含义 |
---|---|
InstanceRebootBySystemFailure | 因系统故障实例重启 |
InstanceRepairBySystemFailure | 因系统故障实例维修 |
LocalDiskInstanceRebootBySystemFailure | 因系统故障本地盘实例重启 |
LocalDiskInstanceRepairBySystemFailure | 因系统故障本地盘实例维修 |
- 预期内运维 (PlannedMaintenance)
描述: 主动运维。针对潜在故障风险,需执行运维操作以规避风险。
事件类型 | 含义 |
---|---|
CustomScheduledLocalDiskInstanceReboot | 因系统维护本地盘实例重启 |
CustomScheduledLocalDiskInstanceRepair | 因系统维护本地盘实例重启 |
CustomScheduledInstanceReboot | 因系统维护实例重启 |
CustomScheduledInstanceRepair | 因系统维护实例维修 |
注意: 支持本地盘的实例在执行运维操作时需要关注磁盘数据丢失风险,建议提前备份重要数据。
使用流程
- 配置事件通知:您可通过BCM产品服务,配置云服务器事件通知机制,及时获取事件信息并实现自动化运维。配置详情请查看配置事件通知
- 查看并授权运维:您可登陆控制台或通过API/SDK方式获取事件列表及详情,并做好业务应用相关的中断或备份准备,然后授权执行运维操作。详情请查看查询并处理事件
注意: 授权会触发停机或者重启等操作,并可能导致本地数据盘数据丢失,请您在授权前备份关键数据并做好业务相关处理。
- 等待运维结束:运维通常或执行分钟级别或者天级别,请您关注运维结束事件。
- 验收:您可验收实例在运维后是否恢复正常,如发现仍存在问题,您可发起二次运维。
操作导航
按照以下流程,快速上手使用云服务器事件中心:
操作 | 说明 |
---|---|
必要前期准备 | 确保目标实例已安装并正常运行HAS组件,这是故障检测的前提条件。检查方法请参见查询并处理事件 |
查询并处理事件 | 通过百度智能云控制台、API或SDK查询和处理运维事件。详情请查看查询并处理事件 |
配置事件通知 | 通过云监控BCM接收运维事件通知,实时掌握实例状态变化。配置详情请查看配置事件通知 |
设置自动授权运维 | 通过预授权规则实现自动运维,在实例触发指定事件时自动完成操作,提升稳定性并降低运维成本。详情请查看设置自动授权运维 |