智算网络平台 AICP 智算网络平台 AICP 仅包含实例监控(Instance)1种监控对象类型,实例监控包含的监控指标列表如下: 实例监控(Instance) 指标英文名称(metric name) 指标中文名称 单位 维度 备注 CPUUsagePercent CPU使用率 % 无 CPUUsagePercent CPU使用率 % 实例 仅Linux CpuIdlePercent CPU空闲率
训练任务资源监控 百舸平台针对于训练任务的资源使用,提供了全面的监控指标,帮助您更好地掌握资源负载情况。下面将介绍如何查询训练任务的监控。 前提条件 资源池已经接入百度云 Prometheus监控服务 。请参考 资源池接入Prometheus监控实例 。 已经创建训练任务,详情可参考 创建任务 。 查询入口 登录 百舸控制台 。
容器实例 BCI 容器实例BCI包含2种监控对象类型,分别是:容器组监控(Cluster)、容器监控(Instance),各个类型包含的监控指标列表如下: 容器组监控(Cluster) 指标英文名称(Metric name) 指标中文名称 单位 维度 CpuUsage CPU使用率 % PodShortID FsReads 磁盘读取次数 次/s PodShortID FsReadsBytes 磁盘读取量
表10-1 日常维护列表 任务 所需工具 查看服务器监控指示灯 / 监测机房温度和湿度 温湿度计 检测线缆 / 8.3.2 查看服务器监控指示灯 检查服务器前后板上的所有指示灯状态是否正常。关于指示灯的详细说明,请参见 2.4 后面板 。 8.3.3 监测机房温度和湿度 请使用温湿度计测量机房温度和湿度,确保温湿度控制在服务器的工作范围内。
支持的云产品 当前支持弹性裸金属服务器BBC、云服务器BCC、专线网关、物理专线、MapReduce BMR、容器引擎CCE等多个产品。详细信息参见: 云产品事件列表 。 查看事件 登录百度智能云,选择云监控BCM,在左侧导航栏中点击<事件监控>进入“事件列表”页面。
和猫冷链物流温度监控系统工厂订单员工绩效信息管理小程序软件定制 本系统专注冷链物流全链条温度监控,通过实时监测与预警机制,确保货物在运输仓储各环节温控达标。数据可追溯、异常即报警,助力企业降低损耗、保障品质,提升物流管理效能(支持根据公司行业定制软件)。 温控系统,软件定制,订单信息管理
温度计/湿度计 用于监控机房温度、湿度,是否满足设备稳定运行环境 示波器 用于测量电压和时序 3.4 安装服务器 介绍安装服务器的操作方法。
日志分析、异常分析、调用链分析模块同 APM应用性能监控 。
NVIDIA GPU资源监控 前言 本文介绍百度智能边缘BIE如何纳管使用NVIDIA GPU的边缘节点,并实现对NVIDIA GPU的资源监控。此处提到的 使用NVIDIA GPU的边缘节点 ,一般特指使用了NVIDIA GPU AI加速卡的x86架构的GPU服务器,GPU AI加速卡可以是NVIDIA T4/P4/V100/A100/3090等。
云产品事件列表 云监控事件监控当前支持以下事件信息: 云服务器 BCC 事件中文名称 事件类型(EventType) 事件级别 处理方法与建议 硬盘媒介错误 RepairFpdmaQueuedFail Critical 您的实例${InstanceName}硬盘媒介错误,请您及时授权维修。