百度机器学习BML

    数据集

    数据集是对建模过程要使用到的数据进行上传、管理、预处理的模块,包含用户数据和公共数据。用户数据是您自己上传的数据,公共数据是平台提供的常见开源数据集,后续会不断更新。

    可视化建模需要用到数据集,即如果想要使用拖拽组件的方式进行建模,需要首先在数据集中上传数据,目前仅支持数据表格式数据,平台会把csv\txt\tsv格式的数据转化成parquet格式,同时进行简单的预处理并存在您的BOS,然后您可以在可视化建模中使用。

    注意:目前数据集模块不参与计费,但是因为数据文件保存在BOS,会产生BOS费用。

    用户数据

    数据集列表

    数据集列表页展示了数据集的名称、类型、状态、数据量(针对数据表格式,即数据的行数)、创建时间、更新时间和操作。

    05-dsList.png

    新建数据集任务、上传数据

    点击新建数据集按钮,弹出新建数据集窗口,填写数据集名称,数据保存路径平台提供了默认值,当然您也可以自己选择BOS路径,点击确定,新建数据集任务完成。

    01-newds.png

    提前上传好数据在BOS中,这里以开源iris鸢尾花数据集为例,iris.csv文件预览如下,该数据无表头,列分隔符为半角逗号:

    02-datapreview.png

    然后点击「上传」按钮,页面跳转至「上传数据」页面,填写上传数据表配置:上传选项(追加是指上传新数据或者追加同维度的数据,替换是替换不同维度的数据)、上传方式(目前仅支持从BOS上传)、上传路径、列分隔符、是否有表头、编码格式,如图所示:

    03-uplaodds.png

    点击『下一步』,进行数据预处理配置,选择异常处理方式,同时可以修改列名或者数据格式。

    04-preanalysis.png

    数据集详情

    等到数据集状态变为成功,点击数据集名称,进入数据集详情页,可切换标签查看基本信息、原始数据、统计数据。

    06-dsinfo.png

    07-primaryds.png

    统计数据包含了数据集的简单统计结果,包含了唯一值个数、缺失值个数、平均数、方差、标准差等等,可以拖动滑块查看。

    08-dsstatistic.png

    公共数据

    目前公共数据集预置了开源数据集iris和Boston Housing。

    09-publicds.png

    点击数据集名称,进入数据集名称详情,可查看基本信息、原始数据、统计数据,同用户数据。

    4.png

    原始数据:

    5.png

    统计数据:

    6.png

    上一篇
    开通BOS服务并上传数据
    下一篇
    Notebook建模