管理训练任务
所有文档
menu

百舸异构计算平台 AIHC

管理训练任务

使用场景

百舸AIHC平台集成了对训练任务进行停止、重跑、复制、删除的能力

停止训练任务

当您在任务提交后发现参数配置错误或者效果不符合预期,可以停止任务,释放资源。操作步骤如下:

  1. 任务运行阶段,停止训练任务,会保留Worker实例,仍然支持查看当前任务的日志、监控和Tensorboard数据。
  2. 任务启动、排队阶段,停止训练任务,会删除Worker实例。此状态下操作停止,需要保证资源池中 CCE Deep Learning Frameworks Operator 组件版本在 1.6.22及以上。如组件版本不满足要求,请按照页面提示完成升级。
  1. 登录百舸异构计算平台AIHC控制台
  2. 进入训练任务列表,选择需要停止的任务,在操作栏单击停止

image.png

  1. 停止后资源将被释放,仍可查看日志、监控和Tensorboard信息。

复制训练任务

在大模型训练中,需要频繁调整参数以获得最佳训练效果,百舸控制台提供了任务复制功能。可快速复制当前任务信息,您可在当前任务基础上修改相关参数再次提交,提高模型训练效率。

操作步骤如下:

  1. 进入训练任务列表页面,选择需要进行复制的任务,在操作栏单击复制

image.png

  1. 将为您跳转到任务创建页面,并自动填充当前任务相关信息。
  2. 确认参数后单击完成,即可完成任务复制。

image.png

重跑训练任务

如果您的训练任务失败并且希望重新启动运行,可以使用百舸AIHC平台的重跑功能。

仅支持处于失败/成功状态的任务使用重跑功能

  1. 进入训练任务列表页面,选择需要进行复制的任务,在操作栏更多中单击重跑

image.png

  1. 会自动帮您提交一个与原始任务除任务名称外,其他配置完全相同的任务。

    系统会自动生成任务名称,新的任务名称命名规则:原始任务名称-4位随机字符

  2. 在创建后新任务的任务详情页面,可以在任务重跑字段中查看该任务的重跑信息,包括当前任务基于哪个最原始的任务重跑以及重跑次数。

image.png

4.点击 重跑次数,您可以查询详细的任务重跑记录。

image.png

删除训练任务

删除任务会同步释放任务使用的资源。

任务删除后无法恢复,请谨慎操作。

  1. 进入训练任务列表页面,选择需要进行复制的任务,在操作栏更多中单击删除

image.png

2.在删除确认弹窗中点击确认,完成删除。

上一篇
创建分布式训练任务
下一篇
查看训练详情