点击左侧 集群管理 ,在 集群列表 中选择您需要的 集群名称 ,在右侧 操作>更多 中点击 Prometheus监控 ,即可跳转至 Prometheus监控服务 。 在 Prometheus监控页面 下方选项中选择 云原生AI监控 ,随后选择 GPU节点资源 。 GPU节点资源如图所示 您可以点击右上角 按钮 ,自行设定 监控时间、手动刷新、自动刷新 。
3)点击左侧边栏中的『集群监控』,进入『集群监控』页面。 (4)通过查看『集群监控』页面,提供的不同纬度的监控信息(集群监控、节点监控、主题监控、消费组监控),即可获知集群的生产和消费情况。 集群监控的具体使用请参考: 集群监控
对象存储-标准存储包 适用于数据频繁读取的移动应用、网站视频、数据分析场景 产品详情 > 产品首购专享 规格 500G 500G 1T 时长 6个月 6个月 1年 适用特点 数据频繁读取 --折 限购5个 价格查询中 ¥ 询价中 元 询价中 ¥ 询价中 活动已结束 BOS对象存储-低频存储包 BOS对象存储-低频存储包 可抵扣使用低频存储产生的容量费用,适用于月均访问次数小于1次的网盘存储、监控数据
策略信息说明 策略信息 说明 名称 报警策略的名称 监控项 需设置报警策略的监控指标 统计周期 默认值为5分钟。可选值有:1分钟、5分钟、10分钟和15分钟 统计方法 默认值为平均值。可选值有:平均值、和值、最大值和最小值 阈值 监控项的报警阈值 重复几次后报警 默认值为1次。可选值有1次-10次 报警等级 默认值为重要。
实例监控 在实例列表中点击具体【实例名称】或者【管理】进入到实例详情页,点击【实例监控】进入实例监控页。实例监控可以基于不同的操作类型提供不同时间粒度的请求次数、操作行数、网络流量及存储数据量的监控信息,状态异常时会提供报警信息。
详细见[API网关流控管理] 监控统计 监控统计,用于监控 API 的调用量、流量、访问时延、响应码的统计,可以更直观的监控 API 的调用量和响应情况。 操作步骤: 登录并进入 API 网关 API GW。 在左侧导航栏,单击 API网关>监控统计 。 选择需要查询的 API 网关分组和 API。例如,这里选择 xwd_test 网关分组和 xwd_test_api_01 API。
更新日志 更新日志 v2.0.2 新增 支持更多模型的MultiLoRA功能,如Qwen2-72B、Qwen2.5等 支持对齐社区的资源类监控和服务类监控,并可以自定义配置监控大盘 支持Qwen2-72B模型的MultiLoRA 支持分LoRA查看自定义部署监控 优化 Multi-LoRA,新增Multi-LoRA中Base+各LoRA部分在同一张表格查看指标监控 v2.0.1 新增 量化工具除Smoothquant
4)通过查看 集群监控 页面,提供的不同纬度的监控信息(集群监控、节点监控、主题监控、消费组监控),即可获知集群的生产和消费情况。 集群监控的具体使用请参考: 集群监控
查看监控数据 登录 管理控制台 ,选择“产品服务 > 网络 > 网络诊断服务 NDS”。 在 网络诊断服务NDS 控制台,左侧导航栏中选择“网络探测”,进入网络探测实例列表页面。 点击实例后面的 监控 ,页面右侧出现监控浮窗。 点击 查看更多 ,进入实例详情页面的监控。 在监控页面点击“报警详情”进入报警策略配置页面,可以管理网络探测的报警策略,详细操作步骤请见 BCM管理报警 。
查看监控数据 登录 管理控制台 ,选择“产品服务 > 网络 > 网络诊断服务 NDS”。 在网络诊断服务NDS控制台,左侧导航栏中选择网络探测,进入网络探测实例列表页面。 点击实例后面的 监控 ,页面右侧出现监控浮窗。 点击 查看更多 ,进入实例详情页面的监控。 在监控页面点击“报警详情”进入报警策略配置页面,可以管理网络探测的报警策略,详细操作步骤请见 BCM管理报警 。