查询训练任务日志
更新时间:2024-12-27
描述
获取一个任务中某个pod的日志。
请求结构
GET /api/v1/aijobs/{jobId}/pods/{podName}/logs
Host:aihc.bj.baidubce.com
Authorization:authorization string
ContentType: application/json
请求头域
除公共头域外,无其它特殊头域。
请求参数
参数名称 | 类型 | 是否必须 | 参数位置 | 说明 |
---|---|---|---|---|
resourcePoolId | String | 是 | Query 参数 | 标识资源池的唯一标识符 |
jobId | String | 是 | Path 参数 | 训练任务ID |
podName | String | 是 | Path 参数 | 训练任务节点名称 |
startTime | String | 否 | Query 参数 | 日志的起始时间,unix时间戳;未设置则返回 Pod 从启动以来的所有日志。 |
maxLines | String | 否 | Query 参数 | 日志的最大行数;未设置则返回 Pod 从启动以来的所有日志。 |
chunk | String | 否 | Query 参数 | 输出日志按着chunk数进行汇聚,例如将10行日志为1条记录,默认0,表示所有行作为1条记录返回 |
返回头域
除公共头域,无其它特殊头域。
返回参数
参数名称 | 类型 | 是否必须 | 说明 |
---|---|---|---|
requestId | String | 是 | 请求ID |
result | LogResult | 是 | 成功请求时的返回结果 |
返回示例
{
"requestId": "3eef4ea1-974a-4faf-b91a-ecc74dade579",
"result": {
"jobId": "pytorch-524a69ac-b272-4427-8288-a161397d2742",
"podName": "gl2-b5394-xy65-master-0",
"logs": [
"/usr/local/lib/python3.8/dist-packages/torch/distributed/launch.py:180: FutureWarning: The module torch.distributed.launch is deprecated\nand will be removed in future. Use torchrun.\nNote that --use_env is set by default in torchrun.\nIf your script expects `--local_rank` argument to be set, please\nchange it to read from `os.environ['LOCAL_RANK']` instead. See \nhttps://pytorch.org/docs/stable/distributed.html#launch-utility for \nfurther instructions\n\n warnings.warn(\nWARNING:torch.distributed.run:\n*****************************************\nSetting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. \n*****************************************\nusing world size: 16, data-parallel-size: 16, tensor-model-parallel size: 1, pipeline-model-parallel size: 1,\nWARNING: overriding default arguments for tokenizer_type:GalacticaHFTokenizer with tokenizer_type:GalacticaHFTokenizer\nusing torch.float16 for parameters ...\n------------------------ arguments ------------------------\n abort_on_unmet_fused_kernel_constraints ......... False\n"
]
}
}