查询训练任务监控
更新时间:2025-05-30
描述
查询指定任务的监控数据的指标类型
请求结构
Bash
1POST ?action=DescribeJobMetrics&resourcePoolId=xxxx
2Host:aihc.bj.baidubce.com
3Authorization:authorization string
4ContentType: application/json
5X-API-Version: v2
请求头域
除公共头域外,无其它特殊头域。
请求参数
参数名称 | 类型 | 是否必须 | 参数位置 | 说明 |
---|---|---|---|---|
resourcePoolId | String | 是 | Query 参数 | 标识资源池的唯一标识符 |
jobId | String | 是 | Body 参数 | 训练任务ID |
startTime | String | 否 | Body 参数 | 可选,且默认为最短可能时间 |
endTime | String | 否 | Body 参数 | 可选,默认为最大可能时间 |
timeStep | String | 否 | Body 参数 | 返回监控数据的时间间隔,默认值是 5 分钟。 |
metricType | String | 是 | Body 参数 | 查询监控数据的指标类型,取值如下: GpuUsage:GPU 使用率。 GpuMemoryUsage:GPU Memory 使用率。 CpuUsage:CPU 使用率。 MemoryUsage:Memory 使用率。 DiskReadRate:磁盘读取速率,单位为 bytes/s。 DiskWriteRate:磁盘写入速率,单位为 bytes/s。 RDMASendDataRate: rdma 发送数据速度,单位为 bytes/s。 RDMARecvDataRate: rdma 接收数据速度,单位为 bytes/s。 PCIESendDataRate: pcie 发送数据速度,单位为 bytes/s。 PCIERecvDataRate: pcie 接收数据速度,单位为 bytes/s。 NVLinkSendDataRate: nvlink 发送数据速度,单位为 bytes/s。 NVLinkRecvDataRate: nvlink 接收数据速度,单位为 bytes/s。 GpuTemperature: gpu 温度。单位为摄氏度。 GpuPowerUsage: gpu 功率。单位为瓦w。 GpuPipeTensorUsage: gpu pipe tensor 使用率。 RDMAHealth: rdma 健康状态。 RDMASendErrorRate: rdma 发送端丢包率,单位为 个/s。 RDMARecvErrorRate: rdma 接收端丢包率,单位为 个/s。 RDMASendPacketsRate: rdma 发包率,单位为 个/s。 RDMARecvPacketsRate: rdma 收包率,单位为 个/s。 CpuTime: cpu 使用量。 MemoryAllocation: mem 使用量,单位为 bytes。 |
rateInterval | String | 否 | Body 参数 | 指标变化周期频率,默认为5分钟 |
返回头域
除公共头域,无其它特殊头域。
返回参数
名称 | 类型 | 说明 |
---|---|---|
requestId | String | 请求ID |
jobId | String | 任务ID |
metrics | Array of Metric | 返回结果 |
返回示例
JSON
1{
2 "requestId": "string",
3 "jobId": "string",
4 "metrics": [
5 {
6 "podName": "string",
7 "metrics": [
8 {
9 "time": null,
10 "value": null
11 }
12 ]
13 }
14 ]
15
16}