数据集
所有文档

          全功能AI开发平台 BML

          数据集

          数据集是对建模过程要使用到的数据进行上传、管理、预处理的模块,包含用户数据和公共数据。用户数据是您自己上传的数据,公共数据是平台提供的常见开源数据集,后续会不断更新。

          可视化建模需要用到数据集,即如果想要使用拖拽组件的方式进行建模,需要首先在数据集中上传数据,目前仅支持数据表格式数据,平台会把csv\txt\tsv格式的数据转化成parquet格式,同时进行简单的预处理并存在您的BOS,然后您可以在可视化建模中使用。

          注意:目前数据集模块不参与计费,但是因为数据文件保存在BOS,会产生BOS费用。

          用户数据

          数据集列表

          数据集列表页展示了数据集的名称、类型、状态、数据量(针对数据表格式,即数据的行数)、创建时间、更新时间和操作。

          05-dsList.png

          新建数据集任务、上传数据

          点击新建数据集按钮,弹出新建数据集窗口,填写数据集名称,数据保存路径平台提供了默认值,当然您也可以自己选择BOS路径,点击确定,新建数据集任务完成。

          01-newds.png

          提前上传好数据在BOS中,这里以开源iris鸢尾花数据集为例,iris.csv文件预览如下,该数据无表头,列分隔符为半角逗号:

          02-datapreview.png

          然后点击「上传」按钮,页面跳转至「上传数据」页面,填写上传数据表配置:上传选项(追加是指上传新数据或者追加同维度的数据,替换是替换不同维度的数据)、上传方式(目前仅支持从BOS上传)、上传路径、列分隔符、是否有表头、编码格式,如图所示:

          03-uplaodds.png

          点击『下一步』,进行数据预处理配置,选择异常处理方式,同时可以修改列名或者数据格式。

          04-preanalysis.png

          数据集详情

          等到数据集状态变为成功,点击数据集名称,进入数据集详情页,可切换标签查看基本信息、原始数据、统计数据。

          06-dsinfo.png

          07-primaryds.png

          统计数据包含了数据集的简单统计结果,包含了唯一值个数、缺失值个数、平均数、方差、标准差等等,可以拖动滑块查看。

          08-dsstatistic.png

          公共数据

          目前公共数据集预置了开源数据集iris和Boston Housing。

          09-publicds.png

          点击数据集名称,进入数据集名称详情,可查看基本信息、原始数据、统计数据,同用户数据。

          4.png

          原始数据:

          5.png

          统计数据:

          6.png

          上一篇
          数据标注
          下一篇
          Notebook建模