深度学习作业

新建作业

在训练作业中,使用GPU集群训练及统一资源调度,从而提高训练速度。

导航选择”作业管理”,点击『新建作业』,进入新建作业流程。

创建限制:每名用户最多同时可以有3个作业同时在排队或运行。如果已有3个作业在排队或运行,希望发起新的作业时,需要等其中一个现有作业运行结束,或者终止当前的一个作业。否则会创建失败。

新建作业时,需要提交运行代码,并完成相应的配置。

提交运行代码,您可以通过两种方式录入代码:

  1. 直接编辑代码:将调试好代码直接复制到代码编辑框发起作业。
  2. 选取代码文件:将代码上传至BOS,填写BOS上的代码文件路径发起集群作业。
  • 选择“直接编辑代码”时,可以直接在代码编辑框中敲入代码。

edit-code.png

另外,您可以点击“选择代码模板”,这里我们提供了一些代码模板供您参考。但注意,选择的代码模板会覆盖代码编辑区中的代码。

code-example.png

  • 选择“选取代码文件”时,选取代码存储的BOS路径,完成代码录入。

select-code-bos.png

作业配置项

配置名称 是否必须 描述
作业名称 只能由数字、字母或-组成且首位只能是字母
算法或框架 支持TensorFlow v1.9.0,Pytorch v1.1.0和PaddlePaddle v1.4.0
作业结束是否发送短信 作业结束后是否发送短信
输出路径 存放模型输出和日志的路径。将训练出的模型和数据放到容器中output目录下,平台会自动把容器中output目录下的内容上传到该路径/{job_id}/output下,日志上传到该路径/{job_id}/log下
训练数据路径 平台会自动下载该路径下数据到容器环境下的本地train目录,如果作业有多个容器,则每个容器只会被分配下载其中一部分数据
测试数据路径 平台会自动下载该路径下数据到容器环境下的本地test目录。如果作业有多个容器,则每个容器只会被分配下载其中一部分数据
计算资源 Infinite集群(或您的私有CCE集群)
资源套餐 包括CPU实例2核_4GB内存、CPU实例_8核_32GB内存、GPU实例深度学习开发卡_6核40GB内存x1卡、GPU实例_K40_6核40GB内存x1卡、GPU实例_V100_6核40GB内存x1卡
实例个数 多机配置
最大运行时间 作业运行超过最大运行时间后,会自动终止作业,可能导致没有结果生成

作业管理相关操作

对于已经提交的作业,可以进行如下操作:

  • 终止:终止当前正在运行或排队的作业。终止运行后,作业结果及作业日志不会上传到指定的BOS路径。
  • 复制:复制一份作业的代码及配置项,进入发起作业页面。
  • 删除:删除该条作业,如果删除时作业还在排队或运行中,会先终止排队或运行,再删除作业。
  • 查看作业详情:点击作业名称可以进入作业详情,可以查看作业配置信息,作业代码,以及作业运行详情。
  • 作业运行详情:查看当前作业运行状态,起止时间。
  • 资源信息列表:查看当前作业所使用的容器运行状态,以及运行日志。在运行中的作业,可以直接查看运行日志。对于运行结束的作业,会提供存储运行日志的可跳转bos地址和下载链接,便于查看或下载运行日志。
  • 查看日志分析:作业执行出错误时,可以在这里查看错误作业的日志分析。

查看作业结果

作业运行完成后,会根据作业配置时指定的输出结果存储路径,与日志的存储路径,将训练结果与运行日志存储到对应的BOS地址。

前往BOS查看或下载作业运行结果,利用提供的存储运行日志的可跳转BOS地址和下载链接,直接查看或下载运行日志。两种情况下,会导致作业结果及作业日志无法保存:1. 手动终止作业;2. 作业运行超时被自动终止。