查看监控数据 监控查询方法 1.选择查询时间:用户可以自定义查询时间。目前仅支持查询 近3个月 的监控数据,查询时间单次最多可以选择 31天 。 2.选择查询资源类型:用户可以勾选需要查询的资源类型,包括CPU、内存和带宽。 3.查看数据:用户可以在图中查看到某个时间点的用量和使用率。 监控说明: 带宽监控支持查看内网、外网。如果是三线节点,支持区分运营商查看带宽。
在 Prometheus监控页面 下方选项中选择 云原生AI监控 ,随后选择 昇腾节点资源 。 昇腾节点资源如图所示 您可以点击右上角 按钮 ,自行设定 监控时间、手动刷新、自动刷新 。
Exporter监控接入地址 用于访问Exporter监控服务,查看监控数据。 是否开启 Grafana 监控 支持Grafana监控功能开启与关闭。 Grafana 监控 URL 用于访问Grafana服务,查看监控数据。 网络配置与可用区 可用区部署数量 集群所部属的可用区数量,支持单可用区、双可用区和三可用区。 所在网络(VPC) 集群所在的虚拟网络地址。
点击左侧 集群管理 ,在 集群列表 中选择您需要的 集群名称 ,在右侧 操作>更多 中点击 Prometheus监控 ,即可跳转至 Prometheus监控服务 。 在 Prometheus监控页面 下方选项中选择 云原生AI监控 ,随后选择 GPU节点资源 。 GPU节点资源如图所示 您可以点击右上角 按钮 ,自行设定 监控时间、手动刷新、自动刷新 。
在 Prometheus监控页面 下方选项中选择 云原生AI监控 ,随后选择 昇腾资源池总览 。 昇腾资源池总览如图所示 您可以点击右上角 按钮 ,自行设定 监控时间、手动刷新、自动刷新 。
3)点击左侧边栏中的『集群监控』,进入『集群监控』页面。 (4)通过查看『集群监控』页面,提供的不同纬度的监控信息(集群监控、节点监控、主题监控、消费组监控),即可获知集群的生产和消费情况。 集群监控的具体使用请参考: 集群监控
实例监控 在实例列表中点击具体【实例名称】或者【管理】进入到实例详情页,点击【实例监控】进入实例监控页。实例监控可以基于不同的操作类型提供不同时间粒度的请求次数、操作行数、网络流量及存储数据量的监控信息,状态异常时会提供报警信息。
详细见[API网关流控管理] 监控统计 监控统计,用于监控 API 的调用量、流量、访问时延、响应码的统计,可以更直观的监控 API 的调用量和响应情况。 操作步骤: 登录并进入 API 网关 API GW。 在左侧导航栏,单击 API网关>监控统计 。 选择需要查询的 API 网关分组和 API。例如,这里选择 xwd_test 网关分组和 xwd_test_api_01 API。
更新日志 更新日志 v2.0.2 新增 支持更多模型的MultiLoRA功能,如Qwen2-72B、Qwen2.5等 支持对齐社区的资源类监控和服务类监控,并可以自定义配置监控大盘 支持Qwen2-72B模型的MultiLoRA 支持分LoRA查看自定义部署监控 优化 Multi-LoRA,新增Multi-LoRA中Base+各LoRA部分在同一张表格查看指标监控 v2.0.1 新增 量化工具除Smoothquant
4)通过查看 集群监控 页面,提供的不同纬度的监控信息(集群监控、节点监控、主题监控、消费组监控),即可获知集群的生产和消费情况。 集群监控的具体使用请参考: 集群监控