AutoML作业

AutoML可以简化算法建模和模型调参的繁琐过程,自动进行超参数学习,进而自动构建高精度模型,节省人力,降低机器学习门槛。

新建作业

左侧导航栏选择“作业管理-->AutoML作业”,进入AutoML作业列表页。点击『新建作业』按钮,进入新建作业流程。

automl_lr_createjob.png

新建作业限制:

  • 每位用户在公共集群(免费试用)资源上最多同时支持3个作业(包括4种类型作业)在排队或运行。
  • 如果已有3个作业在排队或运行,希望发起新的作业时,需要等其中一个现有作业运行结束,或者终止当前的一个作业,否则会发起作业失败。

Logistic Regression

逻辑回归通过用户给定的调参训练数据、调参测试数据,自动选择最优的模型训练超参数,再配合模型训练数据,输出一个训练好的模型给用户。

在一次调参试验中,调参算法会根据用户指定的超参范围及平台调参算法规则选择一组超参数,基于该超参数和用户设定的用于调参的训练/测试数据集,调参算法完成一次模型训练和评估。调参算法会进行多次这样的调参试验,最后选择其中效果最优的一次试验的超参数进行训练模型。

调参训练/训参测试/最终模型训练数据label种类数目必须是2。目前自动超参数逻辑回归只支持二分类。如果数据为多分类可能导致作业失败。

配置说明:

配置名称 是否必须 描述
作业名称 只能由数字、字母、-或_组成且首位只能是字母,长度小于40个字符
算法或框架 选择Logistic Regression
L1正则化系数范围 大于0小于1的浮点数,支持科学计数法
L2正则化系数范围 大于0小于1的浮点数,支持科学计数法
单次试验迭代轮数 10到200的正整数,每次试验会在该范围内选择算法迭代轮数,在试验中全部调参训练数据都参与完训练一遍称为一轮,也称作一个epoch
试验次数 10到100的正整数,共进行“试验次数”次试验,每次试验选择一组超参数与调参训练数据结合得到模型,并利用调参测试数据评估优劣。在全部试验结束之后平台会选择最优超参数,再结合模型训练数据输出最终模型
计算资源 目前只支持公共集群(免费试用)
最大运行时间 最大运行时间固定为8小时,若作业运行达到最大运行时间,infinite会自动强制停止作业,可能造成作业失败
输入数据格式 可选项包括:稀疏不带权重值,稀疏带权重值,稠密数据。详见页面上算法格式要求
调参训练数据路径 存放调试参数的训练数据,每次试验中使用该训练数据并结合一组超参数进行模型训练
调参测试数据路径 存放调试参数的测试数据,每次试验中使用该测试数据并结合调参模型进行模型评估
模型训练数据路径 存放模型训练的数据,infinite 在所有试验中选择评估结果最优的一组超参数,结合该训练数据输出最终模型
模型输出路径 作业成功后将最终模型存放在该路径下
日志输出路径 作业成功后将调参日志存放在该路径下

示例配置:

训练数据是从网上下载的SUSY数据,已经在数据的每行行首加上逗号,sed -i s/^/,/g yourfile,切分好存放到公共bos上。您可以下载数据后,切分调参训练/调参测试/模型训练数据后存放到自己的bos上,也可以直接使用我们的公共bos数据进行训练。
输入数据格式:稠密数据
调参训练数据路径:bos:/infinite-public/automl-demo/data/susy-train
调参测试数据路径:bos:/infinite-public/automl-demo/data/susy-test
模型训练数据路径:bos:/infinite-public/automl-demo/data/susy-all
模型输出路径和日志输出路径配置您自己的bos路径。

image2019-04-26_11-11-15.png

点击“确定”按钮后,提交作业。

模型输出格式说明:

  • 输出模型主要为各特征维度在Logistic Regression模型中对应的权重参数
  • 输出为纯文本格式,每行表示一个特征维度,共有三个字段以空格分割,分别为该特征的权重参数、该特征在调参算法中的内部ID、该特征的原始名称
  • 仅输出了权重参数不为0的特征

作业列表相关操作

  • 终止:将当前正在运行或排队的作业终止,不再排队,不再运行。终止运行后,作业结果及作业日志不会上传到指定的BOS路径。
  • 克隆:克隆一份作业的配置项,进入新建作业页面。
  • 删除:删除该条作业,如果删除时作业还在排队或运行中,会先终止排队或运行,再删除作业,删除后该作业从作业列表中消失。
  • 查看作业详情:点击作业名称可以进入作业详情,查看作业的作业信息、参数信息、集群信息。
  • 查看运行详情:点击作业名称选择运行详情标签可以进入运行详情,查看作业运行状态、起止时间、日志详情、运行曲线等。

查看作业结果

作业运行成功后,会根据作业配置时指定的模型输出路径与日志输出路径,将模型与调参日志存储到对应的 BOS 地址,用户需要前往 BOS 查看或下载作业模型和日志。

如果作业模型及作业日志无法保存,可能是下列情况:

  • 手动终止作业
  • 作业运行超时被自动终止
  • 作业运行失败

用户作业失败,可能是下列情况导致:

  • 调参训练/训参测试/最终模型训练数据与数据格式不匹配
  • 调参训练/训参测试/最终模型训练数据的bos地址不存在或不可访问
  • 输出日志/模型的bucket不存在或不可访问
  • 训练超时