质量规则
更新时间:2025-12-05
数据质量功能支持按数据表配置质量监控规则,可实时核查表数据合规性,自动拦截异常任务、阻断脏数据向下游流转,确保产出数据符合预期标准。整体流程如下图。

添加监控对象
- 登陆百度智能云控制台,选择产品百度千帆·数据智能平台 DataBuilder, 在 DataBuilder 首页侧边导航选择 数据质量>质量规则。
- 支持通过元数据按照数据表或数据卷添加监控对象,选择 元数据>在数据表/数据卷 中单击添加监控对象。
- 下拉选择监控对象表/卷后确定,添加监控对象完成。注意:仅可选择有管理权限的对象。
规则管理
创建质量规则
- 在数据表/数据卷页面单击监控对象名称进入详情,tab页选择规则管理。
- 单击列表上方创建质量规则按钮,填写相关配置项。注意:仅支持拥有数据表/数据卷管理权限的用户创建质量规则。
- 基础配置
| 配置项 | 说明 |
|---|---|
| 规则名称 | 输入规则名称,质量规则的唯一标识,长度限制 256 字符内。 |
| 规则模板 | 选择预设的规则模板。 |
| 质量维度 | 根据所选规则模板自动填充对应的质量管控方向。 |
| 规则描述 | 输入规则的备注信息,长度限制 500 字符内。 |
| 监控作业 | 选择关联的监控任务(用于触发规则执行);若暂无,可点击 “创建监控作业” 新增后刷新选择。 |
- 规则配置
| 配置项 | 说明 |
|---|---|
| 探查对象 | 根据规则模板粒度决定是否需要配置探查对象。表级规则无需选择字段,字段级和跨字段级规则需要选择一个字段作为探查对象,文件级规则需要选择文件路径探查对象,文件夹级规则需要选择文件夹路径作为探查对象。 |
| 规则表达式 | 在此查看规则模版的表达式。 |
| 输入值 | 如果所选规则有自定义输入值,则需要根据提示填入对应的值。系统内置规则模板包括正则表达式、取值范围、枚举值等需要输入值。自定义规则则根据实际逻辑填入。 |
| 其他字段参数 | 如果所选规则需要关联其他数据源,则选择其他字段参数。系统内置规则模板中一致性校验需要选择参考数据源。自定义规则根据实际逻辑选择对应数据源。 |
| 数据过滤 | 仅规则模板的可用对象为数据表时需配置,可选择打开或关闭数据过滤,打开时可以设置校验表的过滤条件,可以配置分区过滤或普通数据过滤,过滤条件会直接追加到校验SQL中。支持使用系统参数${logicTime(format,[offset])},如${logicTime(yyyy-MM-dd HH:mm:ss,-1d)}表示调度时间前一天。 |
- 告警配置
| 配置项 | 说明 |
|---|---|
| 告警条件 | 根据规则对应输出提示配置三级(L1 提示、L2 警告、L3 严重)告警条件。规则语法:(使用 ${参数名} 表示参数的值,支持比较运算符:<、<=、>、>=、!=,支持逻辑运算符:and、or。 例如:${COUNT} > 5 and ${CONSISTENT_RATE} < 0.9)。 |
| 开启任务阻塞 | 如果开启任务阻塞,当该规则在工作流运行中产生严重告警时,会将对应任务节点置为失败,以阻塞下游节点运行。 |
- 异常数据配置
如果系统内置规则支持异常数据保存输出,则显示该配置项
| 配置项 | 说明 |
|---|---|
| 生成异常数据 | 开启或关闭生成异常数据按钮, |
| 异常数据量 | 存储的异常数据条数,可选全部或填写指定条数。 |
| 存储位置 | 输入异常数据存储路径,支持将异常数据写入到CSV文件,文件路径示例:存储位置/运行记录ID/规则名称.csv,请确保选择的存储位置有写入权限。 |
| 异常字段 | 仅规则模板的可用对象为数据表时需配置该项,配置异常数据输出字段,若未配置则会输出异常表的所有字段。 |
- 监控作业配置
| 配置项 | 说明 |
|---|---|
| 监控作业 | 选择关联的监控任务(监控作业可承载一组质量规则的运行配置,用于批量执行规则,并支持在工作流中进行调度运行);若暂无,可点击 “创建监控作业” 新增后刷新选择。 |
查看规则管理列表
创建成功的质量规则以列表形式展示,列表支持按照规则名称或对象名称进行筛选。
表2 质量规则列表项说明
| 列表项 | 说明 |
|---|---|
| 规则名称 | 质量监控规则的唯一标识。 |
| 对象类型/名称 | 规则对应的监控对象(表 / 字段)及具体名称。 |
| 启用状态 | 可选择开启或关闭当前状态,关闭后的质量规则不可运行。 |
| 质量维度 | 规则对应的质量管控方向。 |
| 规则模板 | 规则基于的预设模板类型。 |
| 监控作业 | 关联的监控任务。 |
| 操作 |
监控作业
监控作业可承载一组质量规则的运行配置,用于批量执行规则,并支持在工作流中进行调度运行。
创建监控作业
- 在数据表/数据卷页面单击监控对象名称进入详情,tab页选择监控作业。
- 单击列表上方创建监控作业按钮,填写相关配置项。
表3 创建监控作业配置项说明
| 配置项 | 说明 |
|---|---|
| 作业名称 | 输入作业名称。监控作业的唯一标识,长度限制 256 字符内。 |
| 作业描述 | 输入作业描述。对该监控作业的备注说明,长度限制 500 字符内。 |
| 规则配置 | 展示可选的已配置质量规则列表,可选择需关联到当前监控作业的规则,列表包含规则名称、监控对象、启用状态、质量维度、规则模板等信息,支持搜索筛选规则。 |
查看监控作业列表
创建成功的监控作业以列表形式展示,支持按照作业名称进行筛选。
表4 监控作业列表项说明
| 列表项 | 说明 |
|---|---|
| 作业名称 | 监控作业的唯一标识。 |
| 已启用/总规则数 | 该作业关联的已启用规则数量 / 总规则数量。 |
| 创建人 | 创建该监控作业的用户。 |
| 创建时间 | 作业的创建时间。 |
| 修改人 | 作业的最后修改人。 |
| 修改时间 | 作业的最后对应时间。 |
| 操作 |
运行记录
规则任务每运行一次会生成一条运行记录,以列表形式展示,可直观呈现质量监控任务的全生命周期信息。
查看运行记录列表
在数据表/数据卷页面单击监控对象名称进入详情,tab页选择运行记录。
表5 运行记录列表项说明
| 列表项 | 说明 |
|---|---|
| 运行记录ID | 每条运行任务的唯一标识。 |
| 业务时间 | 该次运行对应的业务数据时间。 |
| 运行状态 | 任务的执行结果(运行中、成功、失败、终止中、已终止)。 |
| 提示/警告/严重规则数 | 不同级别质量问题的触发规则数量。 |
| 运行类型 | 任务的执行方式,单次执行、工作流单次执行和例行执行。 |
| 监控作业 | 关联的监控作业。 |
| 开始时间 | 任务执行的开始时间。 |
| 结束时间 | 任务执行的终止时间。 |
| 运行时长 | 任务执行的总耗时。 |
| 操作 | 对该次运行记录的管理操作。 |
运行记录详情
单击运行记录名称或操作列详情按钮,进入运行记录详情。通过切换tab页可选择查看结果详情或运行日志。
结果详情
运行结果详情以列表形式展示,支持按照规则名称进行筛选。同时可查看运行规则数,和不同级别质量问题的触发规则数量。
表6 结果详情列表
| 列表项 | 说明 |
|---|---|
| 规则名称 | 本次运行涉及的质量规则标识。 |
| 对象类型/名称 | 规则对应的监控目标(表 / 字段)及具体名称。 |
| 运行状态 | 该规则的执行结果(运行中/成功/失败/终止中/已终止) |
| 告警等级 | 规则触发的质量问题级别(提醒/未告警/提示/警告/严重) |
| 质量维度 | 规则对应的质量管控方向。 |
| 规则模板 | 规则基于的预设逻辑模板。 |
| 异常数据量 | 触发质量问题的数据条数。 |
| 异常数据存储位置 | 异常数据的存放路径。 |
| 开始时间 | 该规则的执行启动时间。 |
| 操作 | 单击详情按钮,可查看结果详情的详细信息,包括基本配置、告警条件、运行结果和异常数据预览。 |
运行日志
通过tab页切换可查看运行记录的运行日志,支持设置自动刷新间隔,同时可对日志进行下载和刷新。
质量报告
质量报告是数据质量监控结果的可视化汇总,根据每条规则当日最新运行状态和告警等级进行统计,整合了规则执行、异常统计、规则校验明细等信息,可直观呈现数据质量全貌。质量报告支持刷新和下载PDF到本地。
表质量通过率
当日运行成功的质量规则数中未告警的质量规则占比,同时支持查看各维度通过率。
异常规则数
异常规则数即当日最新告警等级为提示、严重、警告的规则数。
规则校验明细
记录每条规则当日最新运行状态和告警等级,按列表查看。支持通过规则名称或对象名称对列表进行筛选。
