管理训练任务
更新时间:2024-09-03
使用场景
百舸AIHC平台集成了对训练任务进行停止、重跑、复制、删除的能力
停止训练任务
当您在任务提交后发现参数配置错误或者效果不符合预期,可以停止任务,释放资源。操作步骤如下:
- 任务运行阶段,停止训练任务,会保留Worker实例,仍然支持查看当前任务的日志、监控和Tensorboard数据。
- 任务启动、排队阶段,停止训练任务,会删除Worker实例。此状态下操作停止,需要保证资源池中 CCE Deep Learning Frameworks Operator 组件版本在 1.6.22及以上。如组件版本不满足要求,请按照页面提示完成升级。
- 登录百舸异构计算平台AIHC控制台。
- 进入训练任务列表,选择需要停止的任务,在操作栏单击停止。
- 停止后资源将被释放,仍可查看日志、监控和Tensorboard信息。
复制训练任务
在大模型训练中,需要频繁调整参数以获得最佳训练效果,百舸控制台提供了任务复制功能。可快速复制当前任务信息,您可在当前任务基础上修改相关参数再次提交,提高模型训练效率。
操作步骤如下:
- 进入训练任务列表页面,选择需要进行复制的任务,在操作栏单击复制。
- 将为您跳转到任务创建页面,并自动填充当前任务相关信息。
- 确认参数后单击完成,即可完成任务复制。
重跑训练任务
如果您的训练任务失败并且希望重新启动运行,可以使用百舸AIHC平台的重跑功能
仅支持处于失败/成功状态的任务使用重跑功能
- 进入训练任务列表页面,选择需要进行复制的任务,在操作栏更多中单击重跑。
-
会自动帮您提交一个与原始任务除任务名称外,其他配置完全相同的任务。
系统会自动生成任务名称,新的任务名称命名规则:原始任务名称-4位随机字符
- 在创建后新任务的任务详情页面,可以在任务重跑字段中查看该任务的重跑信息,包括当前任务基于哪个最原始的任务重跑以及重跑次数。
4.点击 重跑次数,您可以查询详细的任务重跑记录。
删除训练任务
删除任务会同步释放任务使用的资源。
任务删除后无法恢复,请谨慎操作。
- 进入训练任务列表页面,选择需要进行复制的任务,在操作栏更多中单击删除。
2.在删除确认弹窗中点击确认,完成删除。