使用自定义作业训练模型
所有文档

          BML 全功能AI开发平台

          使用自定义作业训练模型

          使用自定义作业训练模型

          自定义作业训练提供多种开源框架和优质的训练资源。您可以上传代码文件,数据集到BOS对象存储,通过自定义作业完成训练后,训练结果会输出到BOS中的指定位置。

          基本信息

          填写作业名称和备注信息。作业名称填写完成后,自定义作业才可以保存。

          image.png

          算法配置

          1. 选择算法框架:选择训练代码文件使用的算法框架,目前BML支持Paddle,TensorFlow,Pytorch,Sklearn,XGBoost五种主流算法框架
          2. 选择代码文件:从BOS对象存储中选取代码文件,完成代码录入。单击显示框任何位置,都可以打开选择代码文件弹窗,从弹窗中选择bucke及文件夹。双击bucket或者单击『>』图标,即可进入下一级

          image.png

          代码文件要求如下:

          • 选取对象可以是一个文件或者文件夹
          • 所选代码文件必须和所选算法框架对应
          1. 选择Python版本和输入启动命令:

            • 选择上传代码适配的Python版本,支持Python 2和Python 3
            • 当代码文件项选择一个单独文件时,启动命令即为该文件,自动填充启动命令
            • 当代码文件项选择的是一个文件夹时,启动命令为启动文件名称,如train.py
          2. 选择输出路径:选择输出路径存放训练产生的模型和日志文件。为避免出错,建议您选择空文件夹作为输出路径。日志文件需要打印到标准输出,才能保证系统中『日志』功能能够正常读取。

          数据集配置

          自定义作业数据集配置方式是从BOS中选取数据集。在弹出的对话框中选择数据集对应的bucket和文件夹。

          image.png

          说明:训练数据集为必填项,测试数据集为选填项。为保证训练效率,请将数据存放在压缩包内


          资源配置

          BML提供CPU和GPU两类训练机型。
          CPU机型供算法框架为sklearn,XGBoost时使用,用于机器学习训练:

          机型 规格说明
          CPU 4核 CPU 4核16GB内存
          CPU 4核 CPU 16核64GB内存
          CPU 64核 CPU 64核256GB内存

          GPU机型供算法框架为Paddle,TensorFlow,Pytorch时使用,用于深度学习训练:

          机型 规格说明
          GPU V100 TeslaGPU_V100_16G显存单卡_12核CPU_56G内存
          GPU P40 TeslaGPU_P40_24G显存单卡_12核CPU_40G内存
          GPU P4 TeslaGPU_P4_8G显存单卡_12核CPU_40G内存

          温馨提示: 未开通付费的情况下,可选的运行环境为CPU 4核,GPU P4, GPU P40,我们为每位用户提供了CPU 4核环境下100(小时×节点),GPU P4运行环境下100(小时×节点)和GPU P40运行环境下50(小时×节点)的免费算力支持,超出后请您付费购买。详见页面提示的价格说明。

          查看作业结果

          作业运行完成后,会将训练结果与运行日志存储到BOS中指定的输出路径,您可以前往BOS查看或下载作业运行结果。日志文件打印到标准输出时可以直接在日志界面查看。
          两种情况下,会导致作业结果及日志无法保存:1. 手动终止作业;2. 作业运行超时被自动终止

          上一篇
          创建自定义作业
          下一篇
          发布模型