概述
更新时间:2024-07-15
欢迎使用百度智能云的核心产品——百度智能云百舸异构计算平台。您可以使用本文档介绍的 API 对 百舸 服务进行灵活的操作。 如果您是初次调用百度智能云产品的API,可以观看 API 入门视频指南,快速掌握调用API的能力。
资源池相关接口
接口标题 | 请求类型 | URL | 说明 | 备注 |
---|---|---|---|---|
资源池列表 | GET | /api/v1/resourcepools | 获取百舸资源池列表的接口 | |
资源池详情 | GET | /api/v1/resourcepools/{resourcePoolId} | 获取指定资源池的详细信息,包括资源池元数据、状态、节点总数、空闲节点数、GPU总数、空闲卡数等 | |
资源池节点列表 | GET | /api/v1/resourcepools/{resourcePoolId}/nodes | 获取指定资源池列表,及对应节点基本信息、GPU使用量等 | |
队列创建 | POST | /api/v1/resourcepools/{resourcePoolId}/queue | 创建资源池队列,队列支持: 1. 创建指定资源(cpu/memory/gpu)的资源配额 2. 配置是否允许超发 3. 配置是否允许抢占 |
当前只支持普通队列,后续将支持物理队列和弹性队列 |
队列删除 | DELETE | /api/v1/resourcepools/{resourcePoolId}/queue/{queueName} | 删除指定队列 | |
队列详情 | GET | /api/v1/resourcepools/{resourcePoolId}/queue/{queueName} | 获取指定队列详情,包括队列基本信息以及资源使用量等 | |
队列更新 | PUT | /api/v1/resourcepools/{resourcePoolId}/queue/{queueName} | 更新队列资源配额、超发、抢占配置 | |
队列列表 | GET | /api/v1/resourcepools/{resourcePoolId}/queue | 获取队列列表,包含队列详情 |
训练任务相关接口
接口标题 | 请求类型 | URL | 说明 | 备注 |
---|---|---|---|---|
任务创建 | POST | /api/v1/aijobs | 创建百舸任务,具有以下特性 1. 支持PytorchJob与MPIJob两种框架类型 2. 支持配置所需计算资源,包括cpu/memory/gpu 3. 支持挂载pfs分布式存储 4. 支持开启RDMA、容错 5. 支持配置作业优先级 |
当前数据卷挂载仅支持PFS,后续将支持本地盘 |
任务详情 | GET | /api/v1/aijobs/{job_id} | 获取指定任务的元数据、状态以及Pod列表,及每一个Pod的详细信息 | |
任务列表 | GET | /api/v1/aijobs | 获取指定资源池的所有任务列表,包含每个任务的详细信息: 1. 支持指定队列查询 2. 支持按时间正序、倒序排序 3. 支持分页 |
|
任务更新 | PUT | /api/v1/aijobs/{job_id} | 更新指定任务的优先级 | |
删除任务 | DELETE | /api/v1/aijobs/{job_id} | 删除指定任务 | |
停止任务 | POST | /api/v1/aijobs/{job_id}/stop | 停止指定任务,仅对运行中的任务有效 | |
任务事件 | GET | /api/v1/aijobs/{jobId}/events | 获取指定任务事件,支持按指定起始、结束时间获取 | |
任务Pod日志 | GET | /api/v1/aijobs/{jobId}/pods/{podName}/logs | 获取指定任务日志,支持按时间、行数获取 | |
任务Pod事件 | GET | /api/v1/aijobs/{jobId}/pods/{podName}/events | 获取指定任务Pod事件,支持按指定起始、结束时间获取 | |
任务监控 | GET | /api/v1/aijobs/{jobId}/metrics | 查询指定任务的监控数据的指标类型,取值如下: 1. GpuUsage:GPU 使用率 2. GpuMemoryUsage:GPU Memory 使用率 3. CpuUsage:CPU 使用率 4. MemoryUsage:Memory 使用率 5. DiskReadRate:磁盘读取速率 6. DiskWriteRate:磁盘写入速率 |
|
任务节点列表 | GET | /api/v1/aijobs/{jobId}/nodes | 返回任务Pod对应的节点名称 | 仅返回节点名称,节点详细信息可通过资源池节点列表中查询 |
任务Pod WebTerminal | GET | /api/v1/aijobs/{jobId}/pods/{podName}/webterminal | 获取指定任务Pod的web Terminal |