深度学习作业
所有文档

          BML 全功能AI开发平台

          深度学习作业

          深度学习作业集成了多种开源的深度学习框架。用户可以使用不同的框架,编写代码进行多轮训练和迭代,并将产生的模型和各种数据上传到BOS存储上。

          新建作业

          在训练作业中,提供多种资源套餐和不同型号的GPU资源,统一资源调度,从而提高训练速度。

          左侧导航栏选择“训练-->深度学习作业”,进入深度学习作业列表页。点击『新建作业』,进入新建作业流程。

          image.png

          新建作业时,需要提交运行代码,并完成相应的配置。

          提交运行代码,您可以通过两种方式录入代码:

          1. 直接编辑代码:将调试好代码直接复制到代码编辑框发起作业。
          2. 选取代码文件:将代码上传至BOS,填写BOS上的代码文件路径发起集群作业。
          • 选择“直接编辑代码”时,可以直接在代码编辑框中敲入代码。

          image.png

          另外,您可以点击“选择代码模板”,这里我们提供了一些代码模板供您参考。但注意,选择的代码模板会覆盖代码编辑区中的代码。

          image.png

          • 选择“选取代码文件”时,选取代码存储的BOS路径,完成代码录入。

          image.png

          作业配置项

          配置名称 是否必须 描述
          作业名称 只能由数字、字母或-组成且首位只能是字母
          算法或框架 支持TensorFlow v1.13.1,Pytorch v1.1.0和PaddlePaddle v1.4.0
          作业结束是否发送短信 作业结束后是否发送短信
          输出路径 存放模型输出和日志的路径。将训练出的模型和数据放到容器中output目录下,平台会自动把容器中output目录下的内容上传到该路径/{job_id}/output下,日志上传到该路径/{job_id}/log下
          训练数据路径 平台会自动下载该路径下数据到容器环境下的本地train_data目录,如果作业有多个容器,则每个容器只会被分配下载其中一部分数据
          测试数据路径 平台会自动下载该路径下数据到容器环境下的本地test_data目录。如果作业有多个容器,则每个容器只会被分配下载其中一部分数据
          计算资源 BML集群(或您的私有CCE集群)
          资源套餐 包括CPU实例2核_4GB内存、CPU实例_8核_32GB内存、GPU实例深度学习开发卡_6核40GB内存x1卡、GPU实例_K40_6核40GB内存x1卡、GPU实例_V100_6核40GB内存x1卡等
          实例个数 多机配置
          最大运行时间 作业运行超过最大运行时间后,会自动终止作业,可能导致没有结果生成

          作业管理相关操作

          对于已经提交的作业,可以进行如下操作:

          • 终止:终止当前正在运行或排队的作业。终止运行后,作业结果及作业日志不会上传到指定的BOS路径。
          • 克隆:克隆一份作业的代码及配置项,进入发起作业页面。
          • 删除:删除该条作业,如果删除时作业还在排队或运行中,会先终止排队或运行,再删除作业。
          • 查看作业详情:点击作业名称可以进入作业详情,可以查看作业配置信息,作业代码,以及作业运行详情。
          • 作业运行详情:查看当前作业运行状态,起止时间。
          • 资源信息列表:查看当前作业所使用的容器运行状态,以及运行日志。在运行中的作业,可以直接查看运行日志。对于运行结束的作业,会提供存储运行日志的可跳转bos地址和下载链接,便于查看或下载运行日志。
          • 查看日志分析:作业执行出错误时,可以在这里查看错误作业的日志分析。

          查看作业结果

          作业运行完成后,会根据作业配置时指定的输出结果存储路径,与日志的存储路径,将训练结果与运行日志存储到对应的BOS地址。

          前往BOS查看或下载作业运行结果,利用提供的存储运行日志的可跳转BOS地址和下载链接,直接查看或下载运行日志。两种情况下,会导致作业结果及作业日志无法保存:1. 手动终止作业;2. 作业运行超时被自动终止。

          上一篇
          Notebook建模
          下一篇
          机器学习作业