005-AutoML(自动调参) AutoML(自动调参) 为了帮助模型达到更精准的效果,平台支持自动调参。支持自动调参的组件有XGBoost二分类、XGBoost多分类、XGBoost回归等等。 点击“AutoML 按钮。 在弹出的“自动调参”页面中,选择对应的算法组件。 在调参配置中,设置数据拆分比例、网格拆分数、参数范围和调参方式等。 设置调参模型的评估标准。 点击“确定”,完成自动调参。
013-模型评估组件 模型评估组件 二分类评估 评估模块支持计算 AUC、KS 及 F1 score,同时输出数据用于画 PR 曲线、ROC 曲线、KS 曲线、LIFT chart、Gain chart,同时也支持分组评估。 输入 最多可输入4个数据集,用户需要选择原始标签列、预测标签列和正样本标签值,还可以提供scoreColumn获得更多指标。 输出 第一个输出是summary数据集,第二个输
006-组件列选择 在选择特征列或标签列时,支持单独勾选与批量选择的方式选择数据列,支持搜索查找数据列。 当需要选择的数据列比较少时,可以直接勾选数据列进行选择。 当数据列比较多时,点击【批量操作】后,选择需要的数据列,将数据列从左侧列表移动到右侧列表,点击确定即可, 数据列已经按照字段类型进行了分类 。 如果只需要在大量数据列中找某个数据列,则可以使用搜索查找,直接在搜索框输入字段信息即可。
视觉预训练模型 图像分类模型 图像分类网络包含了基于飞桨深度学习平台模型库的十四种预训练网络,利用海量数据进行预训练,并且在ImageNet-2012数据集上进行了top-1准确率和cpu测试时间的测试。 详细测试数据 预训练模型 预训练网络 top-1准确率 cpu测试时间(ms) 模型特点 公开数据集常规预训练模型 EffcientNetB0_small 0.751 129 去掉SE模块的Ef
序列标注数据导入 创建数据集 您可以在BML中,选择“数据管理/标注”并点击按钮“创建数据集”,对话框中选择数据类型为“文本”,标注类型选择“序列标注”,同时您需要根据您的标注数据,选择此序列标注数据集的标注体系(详见文档《序列标注标注说明》)。注意:当前序列标注数据集不支持在线标注功能,您在序列标注数据集中仅能上传标注数据。当您为此数据集选择标注体系后,标注体系不可修改,也不能导入其他标注体系的
008-组件资源配置 在画布中,拖拽组件后,需为组件配置对应的资源。 Spark运行参数 Spark任务中包含Driver和Executor,关系为一对多,您需要分别对Driver和Executor进行资源配置。 参数名称 是否必选 参数描述 Driver 运行环境 是 平台提供两种资源套餐可供选择 Executor 运行环境 是 平台提供两种资源套餐可供选择 Python单机算子配置 Pytho
yaml文件编写规范 yaml文件编写规范 如下所示是进化算法pbt的yaml文件配置示例: yaml文件中主要分为四大部分: 搜索算法参数: algo:指定选择的搜索策略,下表为各种搜索算法对应的字段。 搜索策略 英文字段 随机搜索 RANDOM_SEARCH 贝叶斯搜索 TPE_SEARCH 进化算法 PBT_SEARCH 进化-CMAES CMAES_SEARCH 粒子群算法 PARTICL
Sklearn 0.23.2 Sklearn sklearn框架下,自定义作业支持发布保存模型为 pickle 和 joblib 格式,并且在发布至模型仓库时需要选择相应的模型文件。使用下面代码进行模型训练时,训练程序可以自行加载数据,训练数据选择空文件夹即可。 pickle格式模型示例代码: # -*- coding:utf-8 -*- sklearn train demo im
表格预测任务简介 脚本调参支持多种表格预测任务,训练得到的模型可以应用到广泛实际场景中。 表格预测模型类型 表格预测帮助用户通过机器学习技术发现已有数据中的规律,从而创建机器学习模型,并基于机器学习模型处理新的数据,为业务应用生成预测结果。脚本调参中提供的表格数据预测支持创建回归、二分类、多分类三种类型的机器学习模型。 回归:目标列是连续的实数范围,或者属于某一段连续的实数区间。如在销量预测场景中
模型训练计费说明 BML平台模型训练模块均已开放计费,支持按量计费(后付费)的计费方式 具体计费规则如下: 未开通付费时,仅支持使用免费额度,免费额度用完即停止训练任务。 开通付费后,优先消耗免费额度,免费额度用完后自动转为按量后付费 按分钟计费,不足1分钟按1分钟计。 预置模型调参与自定义作业模块 在任务结束后统一扣费,任务运行中欠费不会中断任务。 Notebook 启动后实时计费,请保证账户余