在 Prometheus监控页面 下方选项中选择 云原生AI监控 ,随后选择 昇腾资源池总览 。 昇腾资源池总览如图所示 您可以点击右上角 按钮 ,自行设定 监控时间、手动刷新、自动刷新 。
点击左侧 集群管理 ,在 集群列表 中选择您需要的 集群名称 ,在右侧 操作>更多 中点击 Prometheus监控 ,即可跳转至 Prometheus监控服务 。 在 Prometheus监控页面 下方选项中选择 云原生AI监控 ,随后选择 GPU节点资源 。 GPU节点资源如图所示 您可以点击右上角 按钮 ,自行设定 监控时间、手动刷新、自动刷新 。
3)点击左侧边栏中的『集群监控』,进入『集群监控』页面。 (4)通过查看『集群监控』页面,提供的不同纬度的监控信息(集群监控、节点监控、主题监控、消费组监控),即可获知集群的生产和消费情况。 集群监控的具体使用请参考: 集群监控
报警管理 查看报警详情 查看方式一:进入 文件存储CFS控制台 ,依次点击“ 文件系统列表 > 管理 > 监控 > 报警详情 ”,进入报警管理子页面。 查看方式二:进入 云监控BCM控制台 ,点击“ 报警管理 ”,可查看报警历史、报警策略、报警模板、报警动作等信息。 添加报警策略 进入 云监控BCM控制台 ,依次点击“ 报警管理 > 报警策略 > 添加策略 ”,设定相应监控项的报警阈值和通知方式。
添加报警策略 进入 云监控BCM控制台 ,依次点击“ 报警管理 > 报警策略 > 添加策略 ”,设定相应监控项的报警阈值和通知方式(具体操作请参考 报警通知模版 )。 在 创建报警策略 页面,您可以自定义报警策略。 管理报警策略 进入 云监控BCM控制台 ,点击“ 报警管理 ”,您可以对已有的报警策略停用和删除,停用的报警策略可以再次启用。具体操作请参考 管理报警 。
策略信息说明 策略信息 说明 名称 报警策略的名称 监控项 需设置报警策略的监控指标 统计周期 默认值为5分钟。可选值有:1分钟、5分钟、10分钟和15分钟 统计方法 默认值为平均值。可选值有:平均值、和值、最大值和最小值 阈值 监控项的报警阈值 重复几次后报警 默认值为1次。可选值有1次-10次 报警等级 默认值为重要。
实例监控 在实例列表中点击具体【实例名称】或者【管理】进入到实例详情页,点击【实例监控】进入实例监控页。实例监控可以基于不同的操作类型提供不同时间粒度的请求次数、操作行数、网络流量及存储数据量的监控信息,状态异常时会提供报警信息。
购买了弹性公网IP 江西省南昌市的魏**购买了云监控 上海市的张**购买了云监控 广西省南宁市的李**购买了云磁盘 广东省茂名市的苏**购买了云磁盘 深圳前**有限公司 购买了云磁盘 山东省青岛市的宫**购买了域名服务 深圳市**有限公司 购买了负载均衡 北京软**有限公司 购买了云磁盘 深圳市**有限公司 购买了云监控 上海市的董**购买了云磁盘 浙江省杭州市的李**购买了通用文字识别(标准版
详细见[API网关流控管理] 监控统计 监控统计,用于监控 API 的调用量、流量、访问时延、响应码的统计,可以更直观的监控 API 的调用量和响应情况。 操作步骤: 登录并进入 API 网关 API GW。 在左侧导航栏,单击 API网关>监控统计 。 选择需要查询的 API 网关分组和 API。例如,这里选择 xwd_test 网关分组和 xwd_test_api_01 API。
更新日志 更新日志 v2.0.2 新增 支持更多模型的MultiLoRA功能,如Qwen2-72B、Qwen2.5等 支持对齐社区的资源类监控和服务类监控,并可以自定义配置监控大盘 支持Qwen2-72B模型的MultiLoRA 支持分LoRA查看自定义部署监控 优化 Multi-LoRA,新增Multi-LoRA中Base+各LoRA部分在同一张表格查看指标监控 v2.0.1 新增 量化工具除Smoothquant