配置AUTOML模式表格数据预测任务
更新时间:2023-01-18
表格预测任务支持AutoML和专家两种运行方式:
- AutoML模式:全流程自动建模,用户只需设置数据集、目标列以及制定任务类型即可,而无需关注数据处理以及算法配置等过程,系统会自动完成建模过程,并从中挑选最优的模型作为训练任务的运行结果。
- 专家模式:高度开放的建模方式,用户可以进行特征工程、算法、超参搜索等配置,具备相关技能的开发者可以在方式下获得更多的开发自由度。
创建AutoML建模任务
操作场景
以iris数据集为例,创建多分类模型,iris数据集示例如下:
sepal_length,sepal_width,petal_length,petal_width,species
5.1,3.5,1.4,0.2,setosa
4.9,3.0,1.4,0.2,setosa
4.7,3.2,1.3,0.2,setosa
4.6,3.1,1.5,0.2,setosa
前提条件
在创建表格预测任务前,需满足如下条件:
- 必须已成功创建“表格”类数据,数据集导入状态为“已完成”
- 数据集中行数必须大于0,即必须是非空数据集
操作步骤
- 在BML操作台的左侧导航菜单上单击“脚本调参”,进入脚本调参列表页面。
-
单击已创建的“iris分类”所在行的“新建任务”,进入“新建任务”页面。
配置参数如下所示:
-
基本信息
- 开发方式:选择AutoML模式
- 任务备注:请根据实际情况填写
-
添加数据
- 选择数据集:选择已创建的iris数据集
- 选择目标列:设置为species
- 算法类型:可以设置为“自动”或“多分类”
-
发布模型
- 自动发布-开:即完成训练后,系统会自动将当前任务得到的模型发布到模型仓库中
- 自动发布-关:完成训练后,用户可以根据模型精度等再决定是否将模型发布到模型仓库
-
配置资源
- 运行环境:请根据数据量以及期望的运行速度进行设置。根据经验值,在建模过程中,数据会在内存中膨胀为原始大小的10倍,为保证任务顺利完成,请尽量确保配置的资源的内存不小于原始数据集的10倍。
- 选择节点数:如果设置为1,则系统以单机算法进行建模,如果设置为大于1的值,则系统将使用分布式算法。单机算法比分布式算法更丰富。在单机资源满足要求的情况下,可优先使用单节点进行建模。
- 最长训练时间:该时长指算法求解阶段的最长时长,若超过该时长,算法仍未得到结果,系统会强制结束训练任务。
配置示例如下所示:
-
基本信息部分:
-
添加数据部分:
-
-
单击“提交训练任务”,开始执行模型训练。
提交任务后可以在任务列表中查看任务的执行状态。