AUTO

AutoML

AutoML顾名思义就是自动机器学习或者智能机器学习,它可以自动地帮助用户在有限的资源和时间内搜索一个最佳的模型,用户只需要选择问题类型和训练数据,就可以开始了,这大大降低了训练模型的门槛。

目前这个功能是实验性质的功能,后续的版本升级中将逐步加强。

如图可以看出,页面布局和工作区类似,左侧有automl训练任务列表和新建按钮。右侧显示automl任务详情,包含运行结果,运行记录和运行参数以及运行状态信息。

新建AutoML任务

点击”新建模型”按钮,弹出选择框中选择automl任务,新建配置界面如图:

  • “名称”是automl作业的名称,支持中文或者英文。
  • “类型”是问题类型,目前支持监督学习的分类任务和回归任务,选择时也比较简单,看训练的目标列是枚举类型还是实数类型,前者是分类任务,后者是回归任务。

    这里选择了任务类型后,在高级选项中可以详细选择搜索算法的范围,默认是全部选中的,用户可以自定方式排除一些算法。

  • “训练数据集”是用于训练模型的,下拉选择范围是数据集中的项。

  • “排名数据集”是用于最后输出结果时,多个候选模型评估排名用的,可以理解为测试数据集,判断自动寻找的模型。
  • “运行时长”是这个任务最大运行时间,因为automl任务运行时没有止境的,一般来说运行时间越长,得到好模型的概率越大。
  • “并发”是指同时运行automl任务的实例数,并发越大,相同时间能够搜索到的好模型的概率越大,但是会消耗成倍的资源。

    这里你可以选择运行一个小时,1并发,或者选择运行半小时,2并发;这两者在使用资源量大致相等的情况下,能获得大致相等的模型效果。你发现了,选择后者能用资源换时间,节省用户迭代周期。

    这里并发提高并不是线性的,任务启动和结束是有额外消耗的。

  • “划分方式”是训练集用于在训练过程中做验证所需的一个步骤,当前支持两种划分方式:按比例,按交叉验证数。

    按比例:直接划分训练集和验证集合的比例,一般80%:20%。

    按交叉验证数:会开启交叉验证,如果选择5,则会进行5次交叉验证,每次拿出20%(1/5)作为验证集。

  • “高级设置”可以细粒度选择搜索的算法和预处理范围,也可以设置一些高级参数控制模型搜索的行为。一般情况下不需要设置,已经配置为经验最佳。

填写完毕后,点击确认,将提交成功,并在automl任务列中可见。

查看AutoML任务运行详情

左侧可以选择任务,选中后,右侧分三栏展示详情。

  • 运行结果

    • 当任务正常结束后,这里会显示模型排名结果。

    这里显示automl任务的最终产出,最终产出是一个用排名数据集评估的模型列表,按评估值高低排序。每个列表项可以展开,其中文本框内的是一段模型配置,可以直接使用这个配置继续精调模型,右上角有下载按钮,可以下载该模型文件。

  • 运行记录

    • 显示一个图表和进度条显示当前的进展。

    这里在automl任务执行过程中,显示当前已经尝试的模型评估值到什么程度了,用户可以选择等待,放弃或者加速。当预制的训练时间到达后,将停止运行,并输出当前找到的最好的结果。

  • 运行参数

    • 当前autoML任务的任务参数配置。