疏散故障实例
更新时间:2024-06-27
本文档主要说明如何对故障的实例通过疏散进行重新部署。
功能说明
疏散能力是提高服务可用性,保障您的业务稳定性的关键方式之一。
当前如果您使用裸金属形态的EBC(Elastic Baremetal Compute,弹性裸金属服务器实例)或EHC实例(Elastic High-Performance-Compute Cluster,即弹性高性能计算集群实例),在实例出现CRITICAL等级的告警事件,或是因部分意外操作导致宕机且无法快速恢复时,百度智能云提供了疏散实例的能力。通过该能力,您可以在一台无故障的宿主机上恢复您的实例,实例的关键信息皆与原实例保持一致,包括:
- 实例ID、名称、主机名等实例基本信息
- VPC、子网IP等,以及主网卡的辅助IP、弹性网卡IP
- RDMA IP(如有)等信息
- 云盘(数据盘)、弹性网卡等的挂载状态
前置条件
如果需要正常使用疏散功能,您需要保证EBC/EHC实例的 /etc/fstab
配置文件中,所有数据盘都已经加入nofail参数。您可以按照如下实例,使用vim
命令调整数据盘的nofail属性:
/dev/nvme0n1 /data1 ext4 defaults,barrier=0,nofail 0 0
参数 | 说明 |
---|---|
/dev/nvme0n1 | 本地盘设备名,在实例中可以通过df -h 或lsblk 等命令查看。格式根据本地盘类型可能有多种,与Linux下各设备的展示逻辑相同,如/dev/sda,或vdb,或nvme0n1,不需要体现分区。 |
/data1 | 本地盘挂载点,可通过mount 命令的grep语句,或直接通过lsblk 的MOUNTPOINT 查询。 |
ext4 | ext4文件系统类型,可通过blkid /dev/nvme0n1 命令查询,默认逻辑下为ext4。 |
barrier=0 | 挂载选项,在文件系统中禁用barrier。 |
nofail | 本地盘出现在文件系统中但实际缺失时,实例的启动流程不会中断。 |
使用限制
- 由于疏散功能对于底层资源逻辑有一定要求,而且一般需要技术客户经理提供相应支持,当前该功能仅针对部分用户开放。后续本能力将作为维修平台的附加功能面向更多用户放开。
- 疏散实例结果可能会出现失败的情况,失败之后百度智能云将回滚您的实例,不会出现实例异常删除、数据丢失等情况。
- 当前仅限EBC/EHC产品可以选择执行针对故障实例的疏散动作。
- EBC/EHC实例在疏散后,本地盘的数据会完全丢失。请您在使用该功能之前做好相关数据的备份工作。