数据质量
更新时间:2023-08-16
数据汇聚到平台后,需要对数据的完整性、唯一性、有效性、准确性、一致性、及时性进行探查,清洗脏数据,以确保数据的存储和共享的质量。
创建质量规则
根据字段标准规范,为数据表test_score添加如下质量规则:
字段 | 规范 | 质量规则 |
---|---|---|
id | 唯一性 | 字段唯一值 |
邮箱格式 | 邮箱校验 | |
不允许为空 | 字段空值 | |
score | 值域范围在0-100之间 | 字段最小值、字段最大值 |
备注:以上质量规则均在系统规则模板中,可直接使用。
创建质量任务
进入“数据治理-数据质量”菜单,点击“新建质量作业”,对数据表进行监控配置。
例如对email字段添加邮箱格式校验规则,并且配置了三个等级的告警条件:
- 无效行数>1时,进行提示;
- 无效比率>0.2时,进行警告;
- 无效比率>0.5时,进行严重警告。
运行并查看结果
1、进入“项目-作业组开发”,拖拽Quality节点,在节点配置中选中创建好的质量任务,点击执行。
2、运行成功后,可进入“数据质量-运维管理”中查看质量作业的探查结果。包括告警状态、告警登记、异常数据明细等。用户可针对问题数据进行清洗、整改。