ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | | == == == == == == == == == == == == == == == = += == == == == == == == == == == = += == == == == == == == ==
您对该BCI实例拥有完全的控制权,不需要进行底层服务器的管理和配置操作,只需要提供打包好的容器镜像,即可运行容器。 一个BCI实例相当于一个Pod,包含以下几部分配置: 实例规格 规格包括vCPU、内存等配置,定义了BCI Pod的计算性能等。创建BCI Pod时,您可以指定BCI规格(直接指定vCPU和内存)来满足GPU、增强网络能力等特殊需求。
通用型:同一服务器上的不同集群,会互相充分利用彼此空闲的计算资源(如CPU),通过复用计算资源享受规模红利,性价比更高。 独享型:每个集群会独占所分配到的计算资源(如CPU),而不会与同一服务器上的其他集群共享资源,性能更加稳定可靠。
规划流程 根据实际场景进行性能测试,得出单模型实例性能指标(QPS、响应延时、内存占用、显存占用),结合场景高峰流量预估和高可用要求,以及服务器实际显卡数量等计算需要模型应用实例数,根据机器节点硬件资源指标,最终确定硬件节点数。
Correctable 计数检查 检查ECC Correctable计数是否大于阈值,该数值异常说明存储可能存在硬件错误 fabric-manager 安装检查 检查fabric-manager组件安装情况,该组件异常会导致无法正常提交训练任务 hALT 配置检查 检查hALT配置情况,hALT未配置 会导致物理机发生重启掉电 网卡驱动检查 检查网卡驱动版本,如果存在异常版本会导致集群通信出现故障
flushdb 类型:字符串 可取值: [flushall|flushdb|keys|hgetall] 更改生效:重新启动后 用户自定义禁用命令 全部 maxmemory-policy 默认值:volatile-ttl 类型:字符串 可取值: [volatile-lru|allkeys-lru|volatile-random|allkeys-random|volatile-ttl|noenviction] 当内存超量时的键淘汰策略
Authorization: bce-auth-v1/e38d78f7b74841ec92727531369834d8/2019-10-29T08:25:20Z/1800/host/56a2a8096f99d5b0fb38f7815b61f43f28b662f0bb49c3407386f932ab6550af { "approvalUuid": "89fa78c0-fedc-ecc9
Authorization: bce-auth-v1/e38d78f7b74841ec92727531369834d8/2019-10-29T08:25:20Z/1800/host/56a2a8096f99d5b0fb38f7815b61f43f28b662f0bb49c3407386f932ab6550af { "approvalUuid": "fa78c089-fedc-ecc9
存储类型 高性能内存:使用内存存储全量数据集,性能卓越。 分级存储型(公测):冷热数据分层存储,成本更低,容量更大。暂仅支持集群版。 节点规格 用于保存数据的缓存节点的规格,不同规格的缓存节点提供不同的容量和性能。详细信息请参见 Redis标准版 、 Redis集群版 。 分片数量 仅适用于 集群版实例 。
故障自愈 背景信息 大模型训练过程中服务器会有极小概率出现硬件级别故障,特别是在大规模算力使用场景下,算力规模越大发生硬件故障的可能性越高。当发生硬件故障时可能会影响节点和节点上服务的正常运行。 针对这一场景,百舸提供故障自动感知、上报能力,并配合业务情况针对不同的故障信息执行一系列自愈操作(如封锁节点、重启、机器维修等),降低故障对业务的影响以及充分保证节点的可用性和业务的稳定运行。