元数据发现
更新时间:2024-12-10
当数据存储在BOS中,而在EDAP还未与对应的元数据关联时,可以通过元数据发现,来构造这些数据对应的元数据信息,从而支撑用户的查询与分析,将半结构化数据转化为结构化数据。
任务管理
创建元数据发现任务
- 进入百度数据湖管理与分析平台EasyDAP控制台,单击页面中数据湖模块进入湖概览界面,或者单击侧边导航数据湖>元数据>任务管理(侧边导航)。
- 单击创建任务按钮,填写创建元数据发现任务配置项,填写完成后单击保存并执行任务创建完毕。
表一 创建元数据发现任务配置项说明
配置项名称 | 配置项说明 |
---|---|
任务名称 | 填写创建的任务名称 |
存储路径名称 | 类型为BOS,只能选择【数据湖-存储路径管理】中已创建的路径。 |
解析格式 | 自动解析、Parquet、ORC、CSV、Hudi、Delta Lake |
目标数据源 | 支持选择用户在EDAP-数据源管理中已创建的数据源 |
目标数据库 | |
目标数据前缀 | 输入数据前缀,为发现的表表名增加前缀。以英文开头, 支持英文、数字、下划线,不超过16个字符 |
执行资源 | 选择当前项目下的执行资源,包括BMR、serverless |
发现策略 | 全量发现,每次执行全量扫描路径下的文件 |
执行策略 | 支持用户配置周期调度、手动执行 |
表重名规则 | 覆盖目标表、忽略该表。选择忽略表时对应表创建失败,后续执行也不同步该表 |
字段更新策略 | 仅新增列,不删除已有列、更新表结构。选择更新表结构后,元数据发现结果会覆盖原有重名的表,原表可能丢失或不可用,请谨慎配置 |
表删除规则 | 删除对应的元数据、忽略删除。 检测到某个元数据对应的存储路径不存在时: 注意:选择该项后,将删除已发现的元数据,删除的元数据无法恢复,请谨慎配置。 |
元数据发现任务列表
创建成功的元数据发现任务以列表形式展示。
表二 元数据发现任务列表字段说明
字段名称 | 字段描述 |
---|---|
任务名称 | 元数据发现任务名称,单击查看任务详情。 |
上次开始时间 | 最近一次任务执行的开始时间,单击箭头可进行排序。 |
上次执行状态 | 最近一次任务的执行状态。支持列表按照状态进行筛选。 |
目标数据库 | 任务配置中选择的目标数据库。 |
存储路径 | 任务配置中选择的BOS存储路径。 |
执行策略 | 周期调度或手动执行。 |
创建用户 | 创建该任务的用户。 |
创建时间 | 任务创建时间。支持按照创建时间进行排序。 |
操作 | 启动、暂停、编辑、删除、执行记录。 |
元数据发现任务详情
在元数据发现任务列表界面单击任务名称进入任务详情界面,用户可以在详情界面展示任务信息、数据源信息、目标信息和高级配置。
表三 元数据发现任务详情字段详情
展示项 | 具体字段 |
---|---|
任务信息 | 任务名称、创建时间、创建人、上次运行时间、上次运行状态 |
数据源信息 | 存储路径、解析格式 |
目标信息 | 目标数据源、目标数据库、目标数据前缀 |
高级配置 | 执行资源、执行频率、日志存储路径、目标表路径不存在、目标表已存在、字段更新策略 |
上次执行状态对应的操作
- 一次性任务
上次执行状态 | 说明 | 启动 | 停止 | 编辑 | 删除 | 执行记录 |
---|---|---|---|---|---|---|
未运行 | 任务创建未运行,可修改所有配置项 | ✔️ | ✘ | ✔️ | ✔️ | ✘ |
待触发 | 任务已提交,等待资源执行 | ✘ | ✔️ | ✘ | ✘ | ✔️ |
运行中 | 任务正在运行中 | ✘ | ✔️ | ✘ | ✘ | ✔️ |
成功 | 任务所有表采集成功 | ✔️ | ✔️ | ✘ | ✘ | ✔️ |
部分成功 | 任务部分表采集成功 | ✔️ | ✔️ | ✘ | ✘ | ✔️ |
失败 | 任务运行失败,所有表采集失败 | ✔️ | ✔️ | ✘ | ✘ | ✔️ |
停止中 | 任务停止中 | ✘ | ✘ | ✘ | ✘ | ✔️ |
已停止 | 任务已停止,停止正在运行的任务 | ✔️ | ✘ | ✔️ | ✔️ | ✔️ |
- 调度任务
上次执行状态 | 说明 | 启动 | 停止 | 编辑 | 删除 | 执行记录 | 手动执行 |
---|---|---|---|---|---|---|---|
未运行 | 任务创建未运行,可修改所有配置项 | ✔️ | ✘ | ✔️ | ✔️ | ✘ | ✘ |
待触发 | 任务已提交,等待资源执行 | ✘ | ✔️ | ✘ | ✘ | ✔️ | ✘ |
运行中 | 任务正在运行中 | ✘ | ✔️ | ✘ | ✘ | ✔️ | ✘ |
成功 | 任务所有表采集成功 | ✔️ | ✔️ | ✘ | ✘ | ✔️ | ✘ |
部分成功 | 任务部分表采集成功,与成功状态一致,任务部分成功不阻塞后续调度。 | ✔️ | ✔️ | ✘ | ✘ | ✔️ | ✔️ |
失败 | 任务运行失败,所有表采集失败。 任务失败时任务调度停止,需要用户点击启动重新启动任务调度 |
✔️ | ✔️ | ✘ | ✘ | ✔️ | ✔️ |
停止中 | 任务停止中 | ✘ | ✘ | ✘ | ✘ | ✔️ | ✘ |
已停止 | 任务已停止,停止正在运行的任务 | ✔️ | ✘ | ✔️ | ✔️ | ✔️ | ✘ |
执行记录
执行记录列表
- 进入百度数据湖管理与分析平台EasyDAP控制台,单击页面中数据湖模块进入湖概览界面,或者单击侧边导航数据湖>元数据>执行记录(侧边导航)。
- 查看执行记录可通过运行开始时间进行筛选。
- 支持保存每个任务近一月的执行记录
表四 执行记录列表字段说明
字段名称 | 字段描述 |
---|---|
实例ID | 执行实例ID |
任务名称 | 执行任务名称,单击跳转至发现任务详情 |
任务id | 实例所属的任务ID |
执行状态 | 草稿、待触发、成功、部分成功、失败、运行中、已暂停、暂停中。支持按照执行状态进行筛选 |
开始时间 | 开始执行时间,支持按照任务开始时间进行排序 |
结束时间 | 任务执行完成时间,支持按照任务结束时间进行排序 |
耗时 | 执行任务花费的时间,结束时间减开始时间 |
操作 | 结果详情:跳转至新页查看运行结果 查看日志:弹窗展示任务日志。注意:草稿、待触发、运行中、已暂停、暂停中状态的任务不能查看结果详情 |
查看运行结果详情
单击执行记录操作列结果详情按钮,进入运行结果详情界面,查看结果详情和运行结果。
- 结果详情:展示开始时间、结束时间、执行耗时、解析格式、存储路径、执行策略、目标数据源、目标数据库、目标数据前缀、发现策略、表重名规则、字段更新策略、表删除规则、创建人、创建时间、执行资源。
- 运行结果:运行结果以列表形式展示,支持按照表名称进行搜索。
表五 运行结果列表字段说明
字段名称 | 字段描述 |
---|---|
表名称 | 元数据发现任务生成的结果表名称 |
目录 | 当前表所在的子路径名称,作为采集的表名展示 |
变更类型 | 新增表、更新表、删除表、无变化、未创建。支持按照变更类型进行筛选 |
执行状态 | 成功、失败、全部。支持按照执行状态筛选 |
错误详情 | 可以查看运行失败原因。任务可能失败原因: |
执行记录日志
单击执行记录操作列查看日志按钮,查看日志信息。所有状态都可单击查看日志。
表、分区发现策略
表发现策略
- 支持发现普通表/分区表,支持三级分区表。若分区字段发现失败,表结构创建成功,执行记录-结果详情-单表日志中提示“表创建成功,分区创建失败”。
- 分区发现失败的情况:分区超过三级或分区字段和分区数据不一致导致分区创建失败
- 发现普通表/分区表:(不满足则发现表任务失败)
- 文件中不包含字段名;
- 路径格式要求为库/表/文件或库/表/分区/文件;
-
表名所在的路径名需要字母开头,仅支持数字字母下划线组合,否则任务失败。
3.文件扫描策略: 仅读取路径下最新创建的一个文件。
推断数据结构
- CSV文件:
- 至少两列: CSV 文件必须至少包含两列数据。
- 至少两行数据: 必须有至少两行数据,其中第一行做为标题行,第二行及之后做为数据行。
- 若标题行不符合建字段规则,默认将列标题设置为col1, col2, col3 等
- 默认分隔符:逗号 (,)、竖线 (|)、制表符 (\t)、分号 (;)、Ctrl-A (\u0001)
- 字段发现策略:可以准确识别的字段类型,按照识别结果展示,不能识别字段类型默认为string。
- 字段创建要求:以英文开头, 支持英文、数字、下划线,不超过128个字符,不能输入空格。
分区数据发现
支持发现表的分区数据,根据发现的分区结构,生成每个分区的对应数据,在元数据管理-表详情-分区信息中展示。