时序数据集介绍
更新时间:2021-01-28
时序数据介绍
时序数据包含有时序特征,常规时序数据是具有一定频率的并且在连续时间范围内的每个采样点上都有一个值。
一个时序数据集可以包含一个或多个时间序列,如下数据集包含一个品牌在A、B两个地区的每日销售数据:
datetime,area,sales_quantity
9/3/2018,A,2000
9/3/2018,B,600
9/4/2018,A,2300
9/4/2018,B,550
9/5/2018,A,2100
9/5/2018,B,650
9/6/2018,A,2400
9/6/2018,B,700
9/7/2018,A,2450
9/7/2018,B,650
上述数据内容可以分为A地区销量时序:
datetime,area,sales_quantity
9/3/2018,A,2000
9/4/2018,A,2300
9/5/2018,A,2100
9/6/2018,A,2400
9/7/2018,A,2450
B地区销量时序:
datetime,area,sales_quantity
9/3/2018,B,600
9/4/2018,B,550
9/5/2018,B,650
9/6/2018,B,700
9/7/2018,B,650
一个时序数据集除具有时间特征以及一个标量特征外,还可以具有其它影响标量取值的特征,如在销量数据场景下,当天的气温、是否节假日等因素也会影响销售数据:
datetime,is_holiday,sales_quantity
9/3/2018,Y,600
9/4/2018,N,550
9/5/2018,N,650
9/6/2018,Y,700
9/7/2018,N,650
数据要求
- 目前仅支持CSV格式的数据文件
- 一次仅能上传一个文件,可以是一个CSV文件或由多个CSV文件压缩成的zip包
- 单个上传文件大小不能超过5GB
- 一个数据集包含的总文件大小不能超过20GB
数据文件内容要求
- 当数据文件包含列名时,列名称可以包含字母、数字和下划线(_),但不能以下划线开头。
- 文件内容以换行符(即字符“\n”,或称为LF)分隔各行,行内容以英文逗号(即字符“,”)分隔各列
- 必须包含要预测的值即目标列,且目标列的数据类型会决定模型的类型。
- 文件中文本列取值长度不能超过4096个字符。
- 文件必须至少包含两列,并至少包含一个日期列,总列数不得超过1000列。
- 数据集的总行数不能超过1000万行。
- zip包中的多个CSV文件必须使用相同的编码格式,都包含列名或都不包含列名;且列的顺序必须保持一致
- 在扩充数据集时,新导入数据文件的首行与数据集的列名相同时,将被视为列名,否则将被视作数据。