深度学习作业
更新时间:2020-11-24
深度学习作业集成了多种开源的深度学习框架。用户可以使用不同的框架,编写代码进行多轮训练和迭代,并将产生的模型和各种数据上传到BOS存储上。
新建作业
在训练作业中,提供多种资源套餐和不同型号的GPU资源,统一资源调度,从而提高训练速度。
左侧导航栏选择“训练-->深度学习作业”,进入深度学习作业列表页。点击『新建作业』,进入新建作业流程。
新建作业时,需要提交运行代码,并完成相应的配置。
提交运行代码,您可以通过两种方式录入代码:
- 直接编辑代码:将调试好代码直接复制到代码编辑框发起作业。
- 选取代码文件:将代码上传至BOS,填写BOS上的代码文件路径发起集群作业。
- 选择“直接编辑代码”时,可以直接在代码编辑框中敲入代码。
另外,您可以点击“选择代码模板”,这里我们提供了一些代码模板供您参考。但注意,选择的代码模板会覆盖代码编辑区中的代码。
- 选择“选取代码文件”时,选取代码存储的BOS路径,完成代码录入。
作业配置项
配置名称 | 是否必须 | 描述 |
---|---|---|
作业名称 | 是 | 只能由数字、字母或-组成且首位只能是字母 |
算法或框架 | 是 | 支持TensorFlow v1.13.1,Pytorch v1.1.0和PaddlePaddle v1.4.0 |
作业结束是否发送短信 | 是 | 作业结束后是否发送短信 |
输出路径 | 是 | 存放模型输出和日志的路径。将训练出的模型和数据放到容器中output目录下,平台会自动把容器中output目录下的内容上传到该路径/{job_id}/output下,日志上传到该路径/{job_id}/log下 |
训练数据路径 | 否 | 平台会自动下载该路径下数据到容器环境下的本地train_data目录,如果作业有多个容器,则每个容器只会被分配下载其中一部分数据 |
测试数据路径 | 否 | 平台会自动下载该路径下数据到容器环境下的本地test_data目录。如果作业有多个容器,则每个容器只会被分配下载其中一部分数据 |
计算资源 | 是 | BML集群(或您的私有CCE集群) |
资源套餐 | 是 | 包括CPU实例2核_4GB内存、CPU实例_8核_32GB内存、GPU实例深度学习开发卡_6核40GB内存x1卡、GPU实例_K40_6核40GB内存x1卡、GPU实例_V100_6核40GB内存x1卡等 |
实例个数 | 是 | 多机配置 |
最大运行时间 | 是 | 作业运行超过最大运行时间后,会自动终止作业,可能导致没有结果生成 |
作业管理相关操作
对于已经提交的作业,可以进行如下操作:
- 终止:终止当前正在运行或排队的作业。终止运行后,作业结果及作业日志不会上传到指定的BOS路径。
- 克隆:克隆一份作业的代码及配置项,进入发起作业页面。
- 删除:删除该条作业,如果删除时作业还在排队或运行中,会先终止排队或运行,再删除作业。
- 查看作业详情:点击作业名称可以进入作业详情,可以查看作业配置信息,作业代码,以及作业运行详情。
- 作业运行详情:查看当前作业运行状态,起止时间。
- 资源信息列表:查看当前作业所使用的容器运行状态,以及运行日志。在运行中的作业,可以直接查看运行日志。对于运行结束的作业,会提供存储运行日志的可跳转bos地址和下载链接,便于查看或下载运行日志。
- 查看日志分析:作业执行出错误时,可以在这里查看错误作业的日志分析。
查看作业结果
作业运行完成后,会根据作业配置时指定的输出结果存储路径,与日志的存储路径,将训练结果与运行日志存储到对应的BOS地址。
前往BOS查看或下载作业运行结果,利用提供的存储运行日志的可跳转BOS地址和下载链接,直接查看或下载运行日志。两种情况下,会导致作业结果及作业日志无法保存:1. 手动终止作业;2. 作业运行超时被自动终止。