创建训练任务 描述 创建一个训练任务到集群中运行。可以指定数据源配置、启动命令以及任务运行的每个节点的计算资源配置等信息。 请求结构 Bash 复制 1 POST ?
Checkpoint异步加速工具 产品介绍 Checkpoint异步加速工具是基于Megatron训练框架,利用模型信息转储、模型对象反序列化等技术,近0开销的模型保存机制,实现大模型训练全过程精度无损的模型保存与恢复。 如何使用 使用限制 1)内存占用:单机所有GPU卡的Checkpoint内存会优先保存在内存,因此对于千亿参数规模模型建议预留200G内存以上。
训练过程中使用了由DeepSeek-R1生成的样本数据。 了解详情 DeepSeek-R1-Distill-Qwen-14B 高效蒸馏模型 对话 推理 14B 本模型由开源模型的基础上,通过微调训练得到。训练过程中使用了由DeepSeek-R1生成的样本数据。
查询训练任务监控 描述 查询指定任务的监控数据的指标类型 请求结构 Bash 复制 1 POST ?
更新训练任务 描述 更新训练任务相关配置,目前仅支持更新任务优先级。 请求结构 Bash 复制 1 POST /?
删除训练任务 描述 删除一个训练任务。 请求结构 Bash 复制 1 POST ?
查看训练详情 概述 本文介绍如何查看任务详情,有助于您更为全面地了解任务的信息。 操作步骤 登录 百舸AI计算平台AIHC控制台 。 在左侧菜单栏选择 训练任务 ,进入 任务列表 页面,找到您想要查看的任务,单击ID。 任务详情页面。 查看任务信息 在基本信息栏,您可以查看任务名称、资源池队列、训练框架、GPU类型及卡数、任务创建时间信息。
训练任务ID 返回头域 除公共头域,无其它特殊头域。
labelType int 是 类型:0 :未标注;3 :暂不处理 keyword string 是 关键词 3、返回值 参数名 类型 父节点 备注 code int HTTP状态码 time long 时间 msg string 状态信息 data T total int data 总数 pn int data 页码 ps int data 页面大小 list list data 数据大小 clusterId
集合通信带宽=集合通信传输数据量 / 集合通信完成时间,统计的是整个集合通信期间的平均带宽 单次集合通信数据量 单次集合通信传输的数据量 集合通信带宽监控(GPU维度) 集合通信带宽(avg/max) 训练过程中,通信组中GPU维度的集合通信带宽平均值/最大值。