疏散故障实例
所有文档
menu

云服务器 BCC

疏散故障实例

产品详情自助选购


本文档主要说明如何对故障的实例通过疏散进行重新部署。

功能说明

疏散能力是提高服务可用性,保障您的业务稳定性的关键方式之一。

当前如果您使用裸金属形态的EBC(Elastic Baremetal Compute,弹性裸金属服务器实例)或EHC实例(Elastic High-Performance-Compute Cluster,即弹性高性能计算集群实例),在实例出现CRITICAL等级的告警事件,或是因部分意外操作导致宕机且无法快速恢复时,百度智能云提供了疏散实例的能力。通过该能力,您可以在一台无故障的宿主机上恢复您的实例,实例的关键信息皆与原实例保持一致,包括:

  • 实例ID、名称、主机名等实例基本信息
  • VPC、子网IP等,以及主网卡的辅助IP、弹性网卡IP
  • RDMA IP(如有)等信息
  • 云盘(数据盘)、弹性网卡等的挂载状态

前置条件

如果需要正常使用疏散功能,您需要保证EBC/EHC实例的 /etc/fstab配置文件中,所有数据盘都已经加入nofail参数。您可以按照如下实例,使用vim命令调整数据盘的nofail属性:

/dev/nvme0n1 /data1 ext4 defaults,barrier=0,nofail 0 0
参数 说明
/dev/nvme0n1 本地盘设备名,在实例中可以通过df -hlsblk等命令查看。
格式根据本地盘类型可能有多种,与Linux下各设备的展示逻辑相同,如/dev/sda,或vdb,或nvme0n1,不需要体现分区。
/data1 本地盘挂载点,可通过mount命令的grep语句,或直接通过lsblkMOUNTPOINT查询。
ext4 ext4文件系统类型,可通过blkid /dev/nvme0n1命令查询,默认逻辑下为ext4。
barrier=0 挂载选项,在文件系统中禁用barrier。
nofail 本地盘出现在文件系统中但实际缺失时,实例的启动流程不会中断。

使用限制

  • 由于疏散功能对于底层资源逻辑有一定要求,而且一般需要技术客户经理提供相应支持,当前该功能仅针对部分用户开放。后续本能力将作为维修平台的附加功能面向更多用户放开。
  • 疏散实例结果可能会出现失败的情况,失败之后百度智能云将回滚您的实例,不会出现实例异常删除、数据丢失等情况。
  • 当前仅限EBC/EHC产品可以选择执行针对故障实例的疏散动作。
  • EBC/EHC实例在疏散后,本地盘的数据会完全丢失。请您在使用该功能之前做好相关数据的备份工作。
上一篇
实例健康检查
下一篇
弹性高性能计算集群