百度机器学习BML

    深度学习作业

    深度学习作业集成了多种开源的深度学习框架。用户可以使用不同的框架,编写代码进行多轮训练和迭代,并将产生的模型和各种数据上传到BOS存储上。

    新建作业

    在训练作业中,提供多种资源套餐和不同型号的GPU资源,统一资源调度,从而提高训练速度。

    左侧导航栏选择“训练-->深度学习作业”,进入深度学习作业列表页。点击『新建作业』,进入新建作业流程。

    image.png

    新建作业时,需要提交运行代码,并完成相应的配置。

    提交运行代码,您可以通过两种方式录入代码:

    1. 直接编辑代码:将调试好代码直接复制到代码编辑框发起作业。
    2. 选取代码文件:将代码上传至BOS,填写BOS上的代码文件路径发起集群作业。
    • 选择“直接编辑代码”时,可以直接在代码编辑框中敲入代码。

    image.png

    另外,您可以点击“选择代码模板”,这里我们提供了一些代码模板供您参考。但注意,选择的代码模板会覆盖代码编辑区中的代码。

    image.png

    • 选择“选取代码文件”时,选取代码存储的BOS路径,完成代码录入。

    image.png

    作业配置项

    配置名称 是否必须 描述
    作业名称 只能由数字、字母或-组成且首位只能是字母
    算法或框架 支持TensorFlow v1.13.1,Pytorch v1.1.0和PaddlePaddle v1.4.0
    作业结束是否发送短信 作业结束后是否发送短信
    输出路径 存放模型输出和日志的路径。将训练出的模型和数据放到容器中output目录下,平台会自动把容器中output目录下的内容上传到该路径/{job_id}/output下,日志上传到该路径/{job_id}/log下
    训练数据路径 平台会自动下载该路径下数据到容器环境下的本地train_data目录,如果作业有多个容器,则每个容器只会被分配下载其中一部分数据
    测试数据路径 平台会自动下载该路径下数据到容器环境下的本地test_data目录。如果作业有多个容器,则每个容器只会被分配下载其中一部分数据
    计算资源 BML集群(或您的私有CCE集群)
    资源套餐 包括CPU实例2核_4GB内存、CPU实例_8核_32GB内存、GPU实例深度学习开发卡_6核40GB内存x1卡、GPU实例_K40_6核40GB内存x1卡、GPU实例_V100_6核40GB内存x1卡等
    实例个数 多机配置
    最大运行时间 作业运行超过最大运行时间后,会自动终止作业,可能导致没有结果生成

    作业管理相关操作

    对于已经提交的作业,可以进行如下操作:

    • 终止:终止当前正在运行或排队的作业。终止运行后,作业结果及作业日志不会上传到指定的BOS路径。
    • 克隆:克隆一份作业的代码及配置项,进入发起作业页面。
    • 删除:删除该条作业,如果删除时作业还在排队或运行中,会先终止排队或运行,再删除作业。
    • 查看作业详情:点击作业名称可以进入作业详情,可以查看作业配置信息,作业代码,以及作业运行详情。
    • 作业运行详情:查看当前作业运行状态,起止时间。
    • 资源信息列表:查看当前作业所使用的容器运行状态,以及运行日志。在运行中的作业,可以直接查看运行日志。对于运行结束的作业,会提供存储运行日志的可跳转bos地址和下载链接,便于查看或下载运行日志。
    • 查看日志分析:作业执行出错误时,可以在这里查看错误作业的日志分析。

    查看作业结果

    作业运行完成后,会根据作业配置时指定的输出结果存储路径,与日志的存储路径,将训练结果与运行日志存储到对应的BOS地址。

    前往BOS查看或下载作业运行结果,利用提供的存储运行日志的可跳转BOS地址和下载链接,直接查看或下载运行日志。两种情况下,会导致作业结果及作业日志无法保存:1. 手动终止作业;2. 作业运行超时被自动终止。

    上一篇
    Notebook建模
    下一篇
    机器学习作业