查询训练任务监控
更新时间:2024-12-27
描述
查询指定任务的监控数据的指标类型
请求结构
GET /api/v1/aijobs/{jobId}/metrics
Host:aihc.bj.baidubce.com
Authorization:authorization string
ContentType: application/json
请求头域
除公共头域外,无其它特殊头域。
请求参数
参数名称 | 类型 | 是否必须 | 参数位置 | 说明 |
---|---|---|---|---|
jobId | String | 是 | Path 参数 | 训练任务ID |
resourcePoolId | String | 是 | Query 参数 | 标识资源池的唯一标识符 |
startTime | String | 否 | Query 参数 | 可选,且默认为最短可能时间 |
endTime | String | 否 | Query 参数 | 可选,默认为最大可能时间 |
timeStep | String | 否 | Query 参数 | 返回监控数据的时间间隔,默认值是 5 分钟。 |
metricType | String | 是 | Query 参数 | 查询监控数据的指标类型,取值如下: GpuUsage:GPU 使用率。 GpuMemoryUsage:GPU Memory 使用率。 CpuUsage:CPU 使用率。 MemoryUsage:Memory 使用率。 DiskReadRate:磁盘读取速率,单位为 bytes/s。 DiskWriteRate:磁盘写入速率,单位为 bytes/s。 RDMASendDataRate: rdma 发送数据速度,单位为 bytes/s。 RDMARecvDataRate: rdma 接收数据速度,单位为 bytes/s。 PCIESendDataRate: pcie 发送数据速度,单位为 bytes/s。 PCIERecvDataRate: pcie 接收数据速度,单位为 bytes/s。 NVLinkSendDataRate: nvlink 发送数据速度,单位为 bytes/s。 NVLinkRecvDataRate: nvlink 接收数据速度,单位为 bytes/s。 GpuTemperature: gpu 温度。单位为摄氏度。 GpuPowerUsage: gpu 功率。单位为瓦w。 GpuPipeTensorUsage: gpu pipe tensor 使用率。 RDMAHealth: rdma 健康状态。 RDMASendErrorRate: rdma 发送端丢包率,单位为 个/s。 RDMARecvErrorRate: rdma 接收端丢包率,单位为 个/s。 RDMASendPacketsRate: rdma 发包率,单位为 个/s。 RDMARecvPacketsRate: rdma 收包率,单位为 个/s。 CpuTime: cpu 使用量。 MemoryAllocation: mem 使用量,单位为 bytes。 |
返回头域
除公共头域,无其它特殊头域。
返回参数
名称 | 类型 | 说明 |
---|---|---|
requestId | String | 请求ID |
result | MetricsResult | 返回结果 |
返回示例
{
"requestId": "string",
"result": {
"jobId": "string",
"podMetrics": [
{
"podName": "string",
"metrics": [
{
"time": null,
"value": null
}
]
}
]
}
}