新建数据集
创建数据集
概述
您可以创建并管理自定义数据集,用于存储和分析特定业务场景下的数据。无论是客户信息、交易记录还是行为数据,您都可以灵活定义字段结构,并通过多种方式接入数据,快速构建高质量的数据基础。
前提条件
有权限登录进入客悦ONE客户洞察。
操作步骤
1、登录进入客悦ONE客户洞察,点击【数据集管理】,在数据集管理下可看到系统预置的数据集。

2、点击【+新建数据集】,弹出新建数据集页面。

3、填写基本信息:填写数据集中英文名称、数据类型及数据集描述。

数据类型
-
事实数据:
- 事实数据表,是数据仓库中的核心表,用于存储大量的业务数据,如行为表、订单表、交易表,这些数据是可以被汇总和记录的。事实表通常包含大量的行,并且体积远大于其他表。
- 如需基于idmaping结果串联使用该数据集,可以将该数据集加入到oneid生成任务中。
-
维度数据:
- 维度表是与事实表相对应的表,用于存储与数据中心的各个业务领域相关的维度信息,如用户表、商品表,日期表等,维度表保存了维度的属性值,可以与事实表做关联。
储存引擎
- Doris:适合存储结构化数据
- ElasticSearch:适合存储文本类数据,选择es后该数据集不参与和其他Doris数据集的关联。
4、数据字段配置:您可自定义添加字段,也可使用「AI生产字段」。添加字段后,可通过鼠标拖拽灵活调整字段排序。 方法一:点击【添加字段】:输入字段中英文名称、数据类型、字段描述等信息。

方法二:点击【AI生产字段】:输入对数据集对描述,便于AI根据实际业务场景快速而全面的抽取字段。

数据字段配置下包含的字段信息如下:

字段支持的数据类型
- 数字类:int、tinyint (主要用于枚举类型)、bigint (大数id)
- 文本类:varchar(255) (主要用于短文本类)、text (长文本)
- 时间类:datetime
- 其他:json (嵌套结构数据体)
字段标记 通过为数据项添加标签,提高数据的可查找性、分类管理能力,优化搜索过滤功能,有助于您进行数据分析和挖掘。系统根据不同字段设置对应字段标记,一共包含7种标记:
- 无(默认)
- 唯一id:用于唯一标识表中的每一行记录。
- 事件(维度表无该选项):在事实表中标识行为动作的字段,用于判断不同表中行为的识别。
- 度量(维度表无该选项,且为数字类型字段):度量字段具有可加性,即可以在不同的维度上进行聚合计算,如求和、平均值等,是数据分析的重要基础。
- id字段:标识id类的字段。
- 敏感:字段加密,md5/sha256加密。
- 分区:根据该字段的值将数据存储在不同的分区中。每个分区都可以独立地进行查询、加载和删除操作,提高数据管理的效率和性能。

是否作为筛选条件 当您需要从一个数据集中筛选出满足特定条件的用户时,可选择一个或多个字段作为筛选条件,您可在此设置该字段是否要作为筛选条件。
5、点击【高级配置】,可定义字段的取值范围或枚举值。如对于city(城市)、tags(标签)等字段,用户可根据实际需求选择文本类或枚举类作为取值方式:
- 文本类:选用文本类时,字段的取值范围不受限制,可以包含任意文本信息,适用于取值不可预知或不可穷尽的场景。
- 枚举类:若选择枚举类,字段的取值将限定于系统预先设置的枚举值范围内。但用户具备对这些枚举值进行修改、添加或删除的权限,且枚举项的key支持中文输入。适用于取值范围明确且可穷尽的情况。

若字段类型为“枚举值”,点击「AI生成枚举值」后,抽取的结果会覆盖现有的key值、value值。

系统默认勾选「数据记录中该字段显示为value值」,方便您在数据查询或导出时直观查看数据。例如,如果字段是“性别”,勾选后可能直接显示“男”或“女”,而不是显示“1”或“0”这样的代码。

