表格数据集介绍
更新时间:2021-01-27
表格数据介绍
训练数据的质量决定了训练所得模型效果可达到的上限。数据上传后无法修改其内容。如果在导入训练数据后需要对其进行更改,必须重新导入。
数据要求
数据文件格式要求:
- 目前仅支持CSV格式的数据文件
- 一次仅能上传一个文件,可以是一个CSV文件或由多个CSV文件压缩成的zip包
- 单个上传文件大小不能超过5GB
- 一个数据集包含的总文件大小不能超过20GB
数据文件内容要求:
- 当数据文件包含列名时,列名称可以包含字母、数字和下划线(_),但不能以下划线开头。
- 文件内容以换行符(即字符“\n”,或称为LF)分隔各行,行内容以英文逗号(即字符“,”)分隔各列
- 必须包含要预测的值即目标列,且目标列的数据类型会决定模型的类型。
- 文件中文本列取值长度不能超过4096个字符。
- 必须至少包含两列,且不得超过1000列。
- 数据集的总行数不能超过1000万行。
- zip包中的多个CSV文件必须使用相同的编码格式,都包含列名或都不包含列名;且列的顺序必须保持一致
- 在扩充数据集时,新导入数据文件的首行与数据集的列名相同时,将被视为列名,否则将被视作数据