运维管理
更新时间:2024-08-28
数据质量运维管理模块可以查看任务运行结果、告警情况和异常数据预览。
查询作业实例
- 登录并进入百度智能云数据湖管理与分析EasyDAP。在左侧导航栏,单击数据治理>数据质量>运维管理,进入运维管理界面。
- 从左侧各数据源类型中选择一个,并且选中一个数据库,即可查看该数据库下所有表的质量任务运行实例。
表一 展示项说明
展示项名称 | 描述 |
---|---|
表名称 | 该质量任务实例所属质量作业的基表名称。 |
质量作业名称 | 该质量任务实例所属质量作业名称。 |
实例ID | 该质量任务实例ID。 |
状态 | 该质量任务实例运行状态(全部、成功、失败、告警、阻塞、运行中。 支持按照状态进行筛选。 |
业务时间 | 该质量任务实例运行业务时间。单击箭头可进行排序。 |
运行开始时间 | 该质量任务实例运行开始时间。 |
表二 状态说明
质量作业状态包括:运行中、成功、告警、阻塞、失败五种。调度中质量节点的状态有运行中、成功、失败三种。
质量作业状态 | 调度中质量节点状态 | 说明 |
运行中 | 运行中 | 作业运行中。 |
成功、告警 | 成功 | 质量作业运行成功或产生告警(L1提示、L2警告),调度中质量节点状态为成功。 |
阻塞、失败 | 失败 | 质量作业发生阻塞(L3严重告警)或者失败,调度中质量节点状态为失败,如果是阻塞状态则会停止执行下游节点。 |
查看异常数据
- 登录并进入百度智能云数据湖管理与分析EasyDAP。在左侧导航栏,单击数据治理>数据质量>运维管理,进入运维管理界面。
- 从左侧各数据源类型中选择一个,并且选中一个数据库,查看该数据库下所有表的质量任务运行实例。
- 单击实例列表操作栏中的结果查看,进入执行结果查看详情页面。
- 在结果查看详情页面,可以查看任务每个规则的告警状态和异常数据数量、路径,如果有异常数据,单击字段名称下拉按钮可以预览最多20条异常数据。构造表结构,查看不同规则的异常数据展示。
表二 表结构说明
col_name | date_type |
---|---|
id | int |
name | string |
string | |
score | float |
- 示例数据:
insert into test_stu.test_stu values(1, 'name1', 'e-name1@test.com', 90);
insert into test_stu.test_stu values(1, 'name2', 'e-name1attest.com', 90);
insert into test_stu.test_stu values(2, 'name2', 'e-name2@test.com', 96);
insert into test_stu.test_stu values(3, 'name3', 'e-name3@test.com', 78);
insert into test_stu.test_stu values(4, 'name4', 'e-name4@test.com', 69);
insert into test_stu.test_stu values(5, 'name5', 'e-name5#test.com', -10);
insert into test_stu.test_stu values(6, 'name6', 'e-name6@test.com', 100);
insert into test_stu.test_stu values(7, 'name7', 'e-name7@test.com', 1000);
insert into test_stu.test_stu values(8, '', '', null);
insert into test_stu.test_stu values(9, null, null, null);
insert into test_stu.test_stu values(10, null, null, null);
insert into test_stu.test_stu values(null, null, null, 90);
insert into test_stu.test_stu values(null, null, null, 90);
完整性
- 规则粒度:字段级
- 探查对象:Name
- 规则分类:完整性
- 规则模板名称:字段空值
- 异常数据:异常数据为name字段为NULL或者空字符串的数据。
唯一性
- 规则粒度:字段级
- 探查对象:ID
- 规则分类:唯一性
- 规则模板名称:字段重复值
- 异常数据:异常数据为ID重复的数据,为id=1的两条数据。多个NULL值不算重复。
有效性
- 规则粒度:字段级
- 探查对象:email
- 规则分类:有效性
- 规则模板名称:正则表达式校验
- 异常数据:异常数据为email字段不符合邮箱格式正则表达式的数据。不包含NULL值。
准确性
- 规则粒度:字段级
- 探查对象:score
- 规则分类:准确性
- 规则模板名称:值域范围校验,[0,100]。
- 异常数据:异常数据为score字段不在[0,100]范围内的2条数据。
一致性
- 规则粒度:字段级
- 探查对象:ID
- 规则分类:一致性
- 规则模板名称:字段一致性校验
- 异常数据:异常数据为ID值不在参考表ID字段中的数据。
问题分析整改
对于有质量问题的数据,需要根据校验结果并查看对应异常数据,结合业务定位数据出现问题的原因。
比如完整性问题,一般由业务数据本身缺失导致,或者数据开发过程中如join关联出错导致空值数据问题。业务数据本身缺失导致的需要完善初始业务数据收集,保证数据完整性。数据开发过程中导致的问题需要结合实际处理逻辑定位问题原因,可以借助比如数据血缘根据数据链路排查问题。