故障自愈 背景信息 大模型训练过程中服务器会有极小概率出现硬件级别故障,特别是在大规模算力使用场景下,算力规模越大发生硬件故障的可能性越高。当发生硬件故障时可能会影响节点和节点上服务的正常运行。 针对这一场景,百舸提供故障自动感知、上报能力,并配合业务情况针对不同的故障信息执行一系列自愈操作(如封锁节点、重启、机器维修等),降低故障对业务的影响以及充分保证节点的可用性和业务的稳定运行。
用于launcher节点给worker节点发送命令。
注意:部分应用的安装未生效时,需要重启应用服务,请合理安排安装时间。 RASP-Agent升级: 当 Web应用防护设置中 配置了组件自动升级策略,应用服务将自动升级对应组件。若未配置自动升级,则可以勾选对应的应用服务,点击 Web应用防护页面 的“升级”按钮进行RASP-Agent的手动升级。注意:部分应用的升级未生效时,需要重启应用服务,请合理安排升级时间。
注意:部分应用的安装未生效时,需要重启应用服务,请合理安排安装时间。 RASP-Agent升级: 当 Web应用防护设置中 配置了组件自动升级策略,应用服务将自动升级对应组件。若未配置自动升级,则可以勾选对应的应用服务,点击 Web应用防护页面 的“升级”按钮进行RASP-Agent的手动升级。注意:部分应用的升级未生效时,需要重启应用服务,请合理安排升级时间。
写入分区信息 写入分区信息有两种格式: 1、盘符格式,如:/dev/vdb1 /mnt ext4 defaults 0 0 2、UUID格式,如:UUID=84953f78-xxxx-4dbd-ac60-aaabc2e4cb9c / ext4 defaults 1 1 由于云服务器在重启或者关闭等过程中,盘符可能会发生偏移,如/dev/vdb1 变成了 /dev/vdb2等,可能会导致云服务器无法正常启动或运行的情况
注:若您是2019.11月之前安装的服务,请在License更换完成后重启容器,再进行业务使用。 若您license更新失败,请请 提交工单 联系百度的工作人员
依次在每个 master 节点修改配置后执行以下命令重启 kube-controller-manager。
批量操作 当您需要针对多个云服务器BCC实例执行开机、关机、重启等常用操作,或者批量调整云服务器BCC实例周边资源(如磁盘、弹性公网IP等)的规格,均可以通过OOS的批量操作能力快速执行运维任务。 OOS为您内置了一些通用的批量操作模板,您无需开发,配置相关参数后便可直接使用。
可以使用以下命令来检查系统上的NTP服务器: ``` ntpdate -v ``` 如果NTP服务器不存在,则需要手动配置。可以使用以下命令来添加NTP服务器: ``` ntpdate -s <NTP服务器的IP地址或域名> ``` 3. 检查redhat主机的时间同步。如果NTP服务器设置正确并且已成功连接,则需要检查redhat主机上的时间同步。
可以使用以下命令来检查系统上的NTP服务器: ``` ntpdate -v ``` 如果NTP服务器不存在,则需要手动配置。可以使用以下命令来添加NTP服务器: ``` ntpdate -s <NTP服务器的IP地址或域名> ``` 3. 检查redhat主机的时间同步。如果NTP服务器设置正确并且已成功连接,则需要检查redhat主机上的时间同步。