查询训练任务监控
更新时间:2026-01-27
描述
查询指定任务的监控数据的指标类型
请求结构
Bash
1POST ?action=DescribeJobMetrics&resourcePoolId=xxxx&queueID=xxxx
2Host:aihc.bj.baidubce.com
3Authorization:authorization string
4ContentType: application/json
5X-API-Version: v2
请求头域
除公共头域外,无其它特殊头域。
请求参数
| 参数名称 | 类型 | 是否必须 | 参数位置 | 说明 |
|---|---|---|---|---|
| resourcePoolId | String | 是 | Query 参数 | 自运维资源池传递资源池唯一标识(示例:cce-1uji3ib5),托管资源池传递 aihc-serverless |
| queueID | String | 是 | Query 参数 | 训练任务所属队列,自运维资源池须填入队列名称,托管资源池须填入队列Id |
| jobId | String | 是 | Body 参数 | 训练任务ID |
| startTime | String | 否 | Body 参数 | 可选,且默认为最短可能时间 |
| endTime | String | 否 | Body 参数 | 可选,默认为最大可能时间 |
| timeStep | String | 否 | Body 参数 | 返回监控数据的时间间隔,默认值是 5 分钟。 |
| metricType | String | 是 | Body 参数 | 查询监控数据的指标类型,取值如下: GpuUsage:GPU 使用率。 GpuMemoryUsage:GPU Memory 使用率。 CpuUsage:CPU 使用率。 MemoryUsage:Memory 使用率。 DiskReadRate:磁盘读取速率,单位为 bytes/s。 DiskWriteRate:磁盘写入速率,单位为 bytes/s。 RDMASendDataRate: rdma 发送数据速度,单位为 bytes/s。 RDMARecvDataRate: rdma 接收数据速度,单位为 bytes/s。 PCIESendDataRate: pcie 发送数据速度,单位为 bytes/s。 PCIERecvDataRate: pcie 接收数据速度,单位为 bytes/s。 NVLinkSendDataRate: nvlink 发送数据速度,单位为 bytes/s。 NVLinkRecvDataRate: nvlink 接收数据速度,单位为 bytes/s。 GpuTemperature: gpu 温度。单位为摄氏度。 GpuPowerUsage: gpu 功率。单位为瓦w。 GpuPipeTensorUsage: gpu pipe tensor 使用率。 RDMAHealth: rdma 健康状态。 RDMASendErrorRate: rdma 发送端丢包率,单位为 个/s。 RDMARecvErrorRate: rdma 接收端丢包率,单位为 个/s。 RDMASendPacketsRate: rdma 发包率,单位为 个/s。 RDMARecvPacketsRate: rdma 收包率,单位为 个/s。 CpuTime: cpu 使用量。 MemoryAllocation: mem 使用量,单位为 bytes。 |
| rateInterval | String | 否 | Body 参数 | 指标变化周期频率,默认为5分钟 |
返回头域
除公共头域,无其它特殊头域。
返回参数
| 名称 | 类型 | 说明 |
|---|---|---|
| requestId | String | 请求ID |
| jobId | String | 任务ID |
| metrics | Array of Metric | 返回结果 |
请求示例
JSON
1{
2 "jobId": "job-sgrt5rigvep2",
3 "metricType": "MemoryUsage"
4}
返回示例
JSON
1{
2 "requestId": "91cba5a7-378c-4b6e-b37a-49336f03c0f0",
3 "jobId": "job-0hy1pdtr3r7y",
4 "metrics": [
5 {
6 "podName": "job-0hy1pdtr3r7y-master-0",
7 "metrics": [
8 {
9 "time": 1758628017,
10 "value": "0.005723205764186557"
11 }
12 ]
13 },
14 {
15 "podName": "job-0hy1pdtr3r7y-worker-0",
16 "metrics": [
17 {
18 "time": 1758628017,
19 "value": "0.005319009570690938"
20 }
21 ]
22 }
23 ]
24}
