故障自愈 功能概述 大模型训练过程中服务器会有极小概率出现硬件级别故障,特别是在大规模算力使用场景下,算力规模越大发生硬件故障的可能性越高。当发生硬件故障时可能会影响节点和节点上服务的正常运行。 针对这一场景,百舸提供故障自动感知、上报能力,并配合业务情况针对不同的故障信息执行一系列自愈操作(如封锁节点、重启、机器维修等),降低故障对业务的影响以及充分保证节点的可用性和业务的稳定运行。
硬件待维护实例 :当实例所在的物理机达到了服务器的时使用年限时,需要将服务器上的相关服务进行迁移。比如RDS和SCS,首先TS会提前通知用户,然后OP会在后台帮用户迁移实例;在用户侧的感知是,业务可能有闪断。 回收站 :用户释放的实例会进入回收站,进入回收站的实例可以进行重新开机或者立即删除,用户保护用户的实例安全。 任务列表 :用户记录和管理定时执行的后台任务。
定义禁用命令 全部 maxmemory-policy 默认值:volatile-ttl 类型:字符串 可取值: [volatile-lru|allkeys-lru|volatile-random|allkeys-random|volatile-ttl|noenviction] 当内存超量时的键淘汰策略
相比之下,Pipeline 模式允许客户端将多个命令一次性发送给服务器,无需等待每个命令的响应。客户端在发送完所有命令后,再开始接收响应。下图为Ping-Pong模式与Pipeline模式的示意图: 客户端无需等待前面命令执行完成就发送后续命令,命令可以源源不断地到达 server 被处理,这就消除了网络延迟的影响。
ETCD服务器待处理提案数 etcd_server_proposals_applied_total ETCD服务器提案应用总数 etcd_server_proposals_failed_total ETCD服务器提案失败总数 APIServer 指标 描述 apiserver_request_total API总请求数 apiserver_current_inflight_requests APIServer
存储类型 高性能内存:使用内存存储全量数据集,性能卓越。 分级存储型(公测):冷热数据分层存储,成本更低,容量更大。暂仅支持集群版。 节点规格 用于保存数据的缓存节点的规格,不同规格的缓存节点提供不同的容量和性能。详细信息请参见 Redis标准版 、 Redis集群版 。 分片数量 仅适用于 集群版实例 。
修复容器设置界面内存显示不准问题 4038558531095564445 自定义 新功能发布:2025-11-27 镜像ID 软件包类型 镜像名称 功能概述 5758933512559136805 整包 3588_aosp10_v2.42.0(2025-10-22) 示范: 服务器类型:3588 系统版本:安卓10 版本号:2.42.0 1. 新增在线快照接口 2.
注意事项 DTS 在执行全量数据迁移时将占用源库和目标库一定的资源,可能会导致数据库服务器负载上升。如果数据库业务量较大或服务器规格较低,可能会加重数据库压力,甚至导致数据库服务不可用。建议您在执行数据迁移前谨慎评估,在业务低峰期执行数据迁移。
not found 404 实例未找到或非自己的实例 InstanceDeleteFailed Instance {instanceId} delete failed 403 删除scs实例失败 ServiceUnavailable Service is unavailable 503 内部服务器错误
BBC-空间使用率过高 EIP-实例不可用 BOS-存储读写异常 配额检查(新增) 成本检查:16项 BCC-实例是否使用率过低 BCC-内存低使用率 CDS-是否存在未挂载的云磁盘 CDS-云磁盘是否使用率过低 CDS-是否有时效性过久的快照实例 EIP-是否存在未绑定的弹性公网IP EIP-带宽是否使用率过低 BLB-是否存在未配置没有后端服务器的BLB RDS-是否存在闲置的未连接实例 SCS