Cloud DMP

  数据加工—数据集管理

  功能说明:添加完数据源后,添加数据集,将数据源数据结构化:

  1、添加数据集 image.png

  2、选择添加方式

  目前支持两种添加数据集的方式,通过数据源生成和通过已有数据集组合生成:

  1)通过数据源生成

  说明:通过将数据源数据结构化生成数据集,数据集生成需要几分钟。且一定要点击预览后填写数据列名称、选择列类型后,才可点击添加按钮

  操作步骤:填写基本信息、数据集配置->点击预览->输入列名称、选择列类型->点击添加生成新的数据集 image.png image.png

  填写字段说明:

  1)选择数据源:指定该数据集对应的来源

  2)是否时间序列:时间序列是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。时间序列分析的主要目的是根据已有的历史数据对未来进行预测。当列类型中出现时间类型时,需选择该数据是否时间序列。指定该数据是否是按时间来排序的数据,用于后续数据的分析和挖掘

  2、通过已有数据集组合生成

  前提:需要从已有数据集中选择两个及以上,通过数据集组合生成新的数据集。

  操作步骤:选择两个及以上数据集->选择join方式、key值->点击添加生成新的数据集。 image.png image.png

  填写字段说明:

  3)Join方式:目前支持5中连接方式,定义如下:

  连接方式 说明 注意事项
  Inner-Join-列连接 只连接匹配的行 -
  Left-Join-列连接 返回左表的全部行和右表满足key值匹配条件的行,如果左表的行在右表中没有匹配,那么这一行右表中对应数据用NULL代替 -

  | Full-Join-列连接 | 从左表和右表那里返回所有的行。如果其中一个表的数据行在另一个表中没有匹配的行,那么对面的数据用NULL代替 | - | | Union-行连接 | 对多个数据集进行并集操作,不包括重复行 | 用于组合的多个数据集需保持数据列数、每列数据名称、每列数据类型完全一致 | | Union-All-行连接 | 对两个结果集进行并集操作,包括重复行 | 不对数据进行去重处理 |

  4)key值:用来连接数据集关系的列, 需要对进行jion组合的每个数据集选择key值。

  上一篇
  数据加工—数据源管理
  下一篇
  数据加工-标签组