删除训练任务 描述 删除一个训练任务。 请求结构 Bash 复制 1 POST ?
查看训练详情 概述 本文介绍如何查看任务详情,有助于您更为全面地了解任务的信息。 操作步骤 登录 百舸AI计算平台AIHC控制台 。 在左侧菜单栏选择 训练任务 ,进入 任务列表 页面,找到您想要查看的任务,单击ID。 任务详情页面。 查看任务信息 在基本信息栏,您可以查看任务名称、资源池队列、训练框架、GPU类型及卡数、任务创建时间信息。
训练任务ID 返回头域 除公共头域,无其它特殊头域。
集合通信带宽=集合通信传输数据量 / 集合通信完成时间,统计的是整个集合通信期间的平均带宽 单次集合通信数据量 单次集合通信传输的数据量 集合通信带宽监控(GPU维度) 集合通信带宽(avg/max) 训练过程中,通信组中GPU维度的集合通信带宽平均值/最大值。
部署工具 您可以在 工具市场 > 工具模版 中根据业务需求选择模版单击 部署工具 快速部署工具,指定部署工具所需加速芯片。 添加实例 工具市场>我的工具 查看需要添加工具实例的工具详情,点击 添加工具实例 , 您可以根据需求添加实例在单机多卡、多机多卡的算力资源上部署工具。 使用工具 平台为每个工具模版提供了实践教程,单击工具在模版详情中参考项目使用指导文档完成工具创建及后续工具使用。
客观真实 :普通强化学习训练,人类主观意识干扰过多,KTO训练可以使模型服务在符合人类预期的基础上,做到更加的客观和真实。 工作步骤 KTO微调包含以下两个步骤: 数据集收集:Prompt+Chosen/Rejected数据集, 样例下载 。
训练任务生命周期 本文将详细介绍分布式训练任务以及实例状态,帮助您更好的理解任务的运行状况 实例状态 状态 说明 排队中 Pod 已经被创建,但是还没有被调度到节点上 启动中 Pod 已经被调度到节点,在镜像拉取、存储挂载、创建容器等过程。
说明2 :为确保训练任务的正常进行,建议您在开通付费后确保账户余额不低于100元。 说明3 :预置模型调参参与计费的时长计算方式: 若用户选择数据增强—自动搜索,则计费时长为实际训练过程耗时( 即状态为运行中-训练阶段的持续时间)+ 自动数据增强耗时相加总时长 。
导入的数据位于用户目录的 data/ 文件夹(当原始数据集有更新时,不会自动同步,需要手工进行同步)。 注:若在BML中未创建数据集,请先参考 数据服务 ,创建、上传、标注数据集。 2、数据转换。 PaddleDetection 训练所需要的数据格式与 BML 默认的数据格式有所不同,所以需要利用脚本将导入的数据转为 PaddleDetection 支持的数据格式,并进行3:7切分。
批量停止训练任务 批量停止训练任务 接口描述 本接口用于批量停止训练任务,目前支持PyTorchJob,TFJob。 请求结构 Bash 复制 1 POST ?