质量作业
更新时间:2024-08-28
创建质量作业
- 登录并进入百度智能云数据湖管理与分析EasyDAP。在左侧导航栏,单击数据治理>数据质量>质量作业,进入质量作业界面。
- 从左侧各数据源类型中选择一个,并且选中一个数据库。单击新建质量作业进入创建质量作业页面。
- 选择一个表,输入作业名称,规则配置添加对应质量规则配置,单击确认按钮完成创建。
表一 配置项说明
名称 | | 含义 | 使用限制 |
表名称 | | 选择一个需要进行质量校验的表。 | |
作业名称 | | 数据质量作业名称。 | 不大于30个字符。 |
扫描范围 | | 选择全表扫描或条件扫描。条件扫描需要输入过滤条件(where 后语句)。 | |
规则配置 | 规则选择 | 根据筛选框给表或字段添加对应粒度、分类下的规则。表级规则无需选择字段,字段级和跨字段级规则需要选择一个字段作为探查对象。 | |
| 输入值 | 如果所选规则有自定义输入值,则需要根据提示填入对应的值。 系统内置规则模板包括正则表达式、取值范围、枚举值等需要输入值。自定义规则则根据实际逻辑填入。 | |
| SQL解析 | 展示所选规则的sql逻辑。 | |
| 其他字段参数 | 如果所选规则需要关联其他数据源,则选择其他字段参数。 系统内置规则模板中一致性校验需要选择参考数据源。自定义规则根据实际逻辑选择对应数据源。 | |
| 告警条件 | 根据规则对应输出提示配置三级(L1 提示、L2 警告、L3 严重)告警条件。 | |
| 开启任务阻塞 | 如果开启任务阻塞,该项规则校验产生严重告警时会阻塞下游任务节点。 | |
| 生成异常数据 | 如果系统内置规则支持异常数据保存输出,开启生成异常数据会把对应异常数据保存在配置的异常数据输出路径中。 | 如果没有配置质量异常数据保存路径,请参考 七、配置管理 先配置质量异常数据保存路径,否则会导致任务执行失败。 |
描述 | | 数据质量作业描述信息。 | 不大于100个字符。 |
举例说明
表二 示例说明
示例类型 | |
---|---|
正则表达式校验 | 输入值:正则表达式。需要输入自己的正则表达式,这里为 ^[.a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+(.[a-zA-Z0-9_-]+)+$ 。 SQL解析:展示正则表达式的sql逻辑 其他字段参数:无。 告警条件:该规则提示“请使用【总行数:COUNT】、【无效行数:INVALID_COUNT】、【有效行数:VALID_COUNT】、【无效比率:INVALID_RATE】进行配置”。则告警条件如下: 开启任务阻塞:开。如果无效行数 > 100时产生严重告警并阻塞任务流中下游任务执行。 生成异常数据:开。该系统规则支持保存异常数据,即该字段数据不符合输入正则表达式的数据。 |
字段一致性校验 | 输入值:无。 SQL解析:展示字段一致性校验的sql逻辑。 其他字段参数:需要一个关联表和一个关联字段,用于判断数据一致性。 告警条件:该规则提示“请使用【总行数:COUNT】、【一致行数:CONSISTENT_COUNT】、【不一致行数:INCONSISTENT_COUNT】、【一致比率:CONSISTENT_RATE】进行配置”。则告警条件如下: 开启任务阻塞:开。如果一致比例 < 0.9 时产生严重告警并阻塞任务流中下游任务执行。 生成异常数据:开。该系统规则支持保存异常数据,即该字段数据不在其他字段参数所选关联表和字段的数据中的数据。 |
自定义规则模板 | 输入值:${Input1}:90。自定义模板sql中的输入表达式占位符。 SQL解析:改自定义规则模板的sql表达式。 其他字段参数:选择当前表的两个字段。结合输入值,该规则最终表达的含义为score > 90分且name不为null的数量。 告警条件:该规则提示“请使用【表行数:表行数】进行配置”。则告警条件如下: 开启任务阻塞:关。 生成异常数据:关。自定义规则模板暂不支持保存异常数据。 |
调度设置
数据质量作业任务运行依赖离线作业组调度执行,需要在离线作业组开发中添加质量任务节点执行。
操作步骤:
- 登录并进入百度智能云数据湖管理与分析EasyDAP。
- 在左侧导航栏,单击数据加工>我的项目,查看项目列表。
- 点击一个项目进入具体开发页面,单击离线开发-作业组开发,新建作业或者选择一个已有作业。选择数据质量-Quality节点拖入画布中。
- 对于多节点任务或者质量任务需要阻塞下游执行,则串联多个节点。当质量任务开启阻塞并且发生L3严重告警时会阻塞下游执行。
- 单击Quality节点,配置质量作业节点,需要选择计算资源,然后通过类型-主题/源连接-库-表-质量作业选择一个已经配置好的质量作业。
- 根据实际情况(该表数据量大小、集群资源),可以修改计算引擎配置参数。包括Driver的cpu个数(默认1)和内存大小(默认1024M),Executor的cpu个数(默认1)、内存大小(默认1024M)和数量(默认1)。注意内存配置需要带上单位(M,G等)。
- 关于计算引擎参数配置:
- 默认参数对于常见如单表数据10G以内,可以正常执行。
- 如果数据量级在100G,建议参数Driver的cpu个数1和内存大小4G,Executor的cpu个数2、内存大小8G和数量2。
-
对于多表关联规则,如系统内置字段一致性规则模板、自定义多表关联规则,可以适当增加资源。
注意:配置示例仅供参照,如果出现如OOM问题,需根据实际情况调整。