丢包率一般由下述几种原因造成:物理线路故障、设备故障、网络拥塞、路由错误等 PING RTT 数据包从本机到服务器,服务器的应答再回到本机的时间 报警策略 添加报警策略 1.在左侧导航点击<站点监控>-><IP高级判障>页签,进入任务列表页面。 2.点击操作列的<报警策略>按钮,进入到该任务的报警策略列表页面。
使用限制 概述 本文主要介绍 Prometheus 监控服务使用过程中存在的内置限制条件。
取消接入后,私有网络中的集群监控数据将无法上报到监控实例。 操作步骤 进入“产品服务>云原生> Prometheus 监控服务”,在实例列表中选中需要接入网络的实例,点击实例名称进入“实例信息”页。 点击左侧“接入网络”,进入接入网络设置页。 在网络列表页中找到需要取消接入的网络,在操作列中点击【取消接入】,按照提示查看取消接入相关信息,点击确认。
对象存储 BOS 对象存储BOS只包含实例监控(Instance)1种监控对象类型,实例监控包含的监控指标列表如下: 实例监控(Instance) 指标英文名称(metric name) 指标中文名称 单位 维度 备注 DeleteObjectSize Delete请求数据量 Bytes BucketId,Region,UserId GetReadBytes Get请求数据量 Bytes BucketId
监控项 说明 训练吞吐(tokens/卡/秒) 每张GPU卡每秒能够处理的tokens数量 训练吞吐(B tokens/台/天) 每台服务器每天能够处理的tokens数量(Billion) 训练分阶段耗时 提供训练过程中每次迭代中不同操作(计算时间/IO时间/通信时间等)的耗时统计(最小值以及最大值),便于对比分析,定位异常。
云监控BCM为用户提供了默认通知模板,也支持用户自定义配置通知模板,可以灵活的选择邮件、短信、电话等报警通知方式,同时也可以自定义选择联系人或者联系人群组作为报警接收对象,不同的报警策略可选择相同的报警通知模版。 您可以通过修改报警通知模版实现不同报警策略的报警通知方式和报警接收对象的一键修改,提高您报警通知方式、报警接收对象的管理效率。
如下图: 相关产品 云监控BCM :全面、可靠、及时的监控服务
向量数据库 VectorDB 向量数据库 VectorDB包含4种监控对象类型,分别是:集群监控(Cluster)、数据节点监控(DataNode)、代理节点监控(Proxy)、单机监控(Standalone),各个类型包含的监控指标列表如下: 集群监控(Cluster) 指标英文名称(Metric name) 指标中文名称 单位 维度 DeleteCountPerSecond Delete每秒请求
不同消息通知渠道的使用场景介绍 概述 如果您在实际使用云监控过程中,对于消息通知渠道有不同的场景和需求,可以通过云监控BCM提供的多种方式满足需求。
免费指标 概述 本文介绍 Prometheus 监控服务提供的免费指标。