数据地图
所有文档
menu

百度数据湖管理与分析平台 EDAP

数据地图

数据地图基于元数据采集提供各类数据检索、数据血缘、数据质量、版本信息查看等功能,帮助用户更加方便快捷的找数、用数。

数据搜索

进入数据搜索需要通过首页侧边导航选择数据治理>数据地图>数据搜索。搜索框支持按照表名称、表描述、字段名称和字段描述进行搜索。侧边通过数据源类型和筛选条件(数据源、数据库和标签)刷新列表。单击表进入详情可以查看表的详细信息。

支持的数据源类型包括HIVE、DORIS、MYSQL、ORACLE、SQLSERVER、CLICKHOUSE、POSTGRESQL、GREENPLUM、HANA、TIDB、DM。

基本信息

用户可以在表详情页查看表基本信息和技术信息。基本信息包括表名称、数据库等。

表一 表详情基础信息说明

字段名称 字段名称
表名称 表英文名
表中文名 采集表描述,作为表中文名
数据库 表所属数据库
创建时间 元数据创建时间
更新时间 元数据采集任务更新时间
类型 元数据的表类型。包括:物理表、映射表、外部表
创建人 采集任务的创建人
湖格式 元数据表所属的湖格式
数据标签 普通用户可以使用标签管理中已创建的标签对数据表打标签。

字段信息

详情表字段信息展示表的字段定义和分区定义,单击去查询,跳转至数据分析,支持用户查询表数据。

数据血缘

详细表信息汇总数据血缘通过可视化图表查看数据血缘图谱,您可以切换表视图、字段视图,灵活选择上下游层级,其中表视图是查看表的上下游血缘图,字段视图可查看表中的字段的上下游血缘图,支持查看节点详情和产生指定血缘关系链路的任务详情。

数据质量

数据汇聚到平台后,需要对数据的完整性、唯一性、有效性、准确性、一致性、及时性进行探查,清洗脏数据,以确保数据的存储和共享的质量。

  • 表质量得分:统计表质量得分,展示质量得分,健康状态展示合格/不合格。
  • 数据质量:可查看表上次运行的实例中的质量规则配置,以及告警情况,查看任务上次实例的运行时间。
  • 历史得分趋势:支持查询历史情况;统计表历史得分趋势。

版本管理

版本信息查看历史的元数据版本,支持按照更新时间筛选列表。版本管理查看版本名称、操作人、最后更新时间和对比上一版本操作。每次采集元数据有变化,就生成一个版本,没有变化就不会生成版本。

分区信息

进入表详情分区信息可以查看、搜索表的所有分区。支持选择分区字段,对单个分区字段进行精确查询。

表二 分区信息字段说明

字段名称 字段描述
分区字段名称 当前表创建的分区字段
分区创建时间 数据被存储到相应分区中的时间
分区路径 每个分区的路径
文件数 每个分区下的文件总数
分区行数 每个分区下的数据总行数
分区大小 每个分区文件的存储大小

元数据采集

元数据采集统一采集和汇总不同系统中的元数据,支持用户在数据地图中查看汇集而来的元数据信息。

创建采集任务

  1. 登陆百度数据湖管理与分析平台EasyDAP进入首页,单击侧边导航数据治理>数据地图>元数据采集,进入元数据采集界面。
  2. 单击创建任务按钮,在创建页面填写相关配置项后单击保存并执行按钮后采集任务创建完毕。
  • 采集数据源类型:

HIVE、DORIS、MYSQL、ORACLE、SQLSERVER、CLICKHOUSE、POSTGRESQL、GREENPLUM、HANA、TIDB、DM

  • 采集对象:

表三 采集对象字段说明

字段名称 字段说明
采集任务名称 输入采集任务名称。
数据源名称 选择数据源管理中配置的对应类型的数据源链接。
测试连通性 测试数据源连通性。
库范围 选择“ALL”会按照数据源粒度采集。已采集的库不能重复采集。
表范围 全部表(包含后续新增)、自定义。采集粒度支持到表,支持用户选择全部表(包含后续新增)、自定义
标签管理 批量添加标签。用户可以使用标签管理中已创建的标签对数据表批量打标。
  • 运行配置:

表四 运行配置字段说明

字段名称 字段说明
执行资源 用户选择任务执行所需的资源。
执行频率 调度执行、手动执行。
目标表被删除 删除对应的元数据、忽略删除。
字段更新策略 更新元数据、忽略更新。

采集任务列表

采集任务列表入口点位在首页>数据治理>数据地图>元数据采集。创建的采集任务会以列表的形式展示,列表可以根据运行时间范围进行筛选。

表五 列表字段说明

字段名称 字段描述
任务名称 采集任务名称
数据源类型 任务选择的数据源类型
数据源 任务选择的数据源链接
采集库 任务选择的采集库
任务类型 一次性任务、周期任务
上次执行状态 上次任务执行状态(草稿、待触发、运行中、成功、部分成功、失败、已暂停、暂停中)
上次执行时间 上次任务执行时间
描述 任务创建时填写的任务描述
创建人 任务创建人
创建时间 任务创建时间
操作
  • 启动:运行中不能重复启动,一次性任务启动实例运行,调度任务启动调度,新增一条待触发实例,实例按照调度时间运行。
  • 暂停:运行中可以暂停,停止正在运行的实例和调度。
  • 编辑:运行中状态不能编辑。
  • 删除:运行中状态不能删除。
  • 调度配置:调整任务的调度配置。
  • 查看实例:查看实例详情。
  • 任务执行状态说明:

    • 一次性任务
    上次执行状态 说明 启动 停止 编辑 删除 调度配置 查看实例
    未运行(草稿) 任务创建未运行,可修改所有配置项 ✔️ ✔️ ✔️ ✔️
    待触发 任务已提交,等待资源执行 ✔️ ✔️
    运行中 任务正在运行中 ✔️ ✔️
    成功 任务所有表采集成功 ✔️ ✔️ ✔️
    部分成功 任务部分表采集成功 ✔️ ✔️ ✔️
    失败 任务运行失败,所有表采集失败 ✔️ ✔️ ✔️
    停止中 任务停止中 ✔️
    已停止 任务已停止 ✔️ ✔️ ✔️ ✔️ ✔️
    • 调度任务
    上次执行状态 说明 启动 暂停 编辑 删除 调度配置 查看实例 手动执行
    未运行(草稿) 任务创建未运行,可修改所有配置项 ✔️ ✔️ ✔️ ✔️
    待触发 任务已提交,等待资源执行 ✔️ ✔️
    运行中 任务正在运行中 ✔️ ✔️
    成功 任务所有表采集成功 ✔️ ✔️
    部分成功 任务部分表采集成功 ✔️ ✔️ ✔️
    失败 任务运行失败,所有表采集失败 ✔️ ✔️ ✔️ ✔️
    已停止 任务已停止。
    已停止正在运行的任务、停止周期调度
    ✔️ ✔️ ✔️ ✔️ ✔️
    停止中 任务停止中 ✔️

    采集任务操作

    编辑采集任务

    在采集任务列表可以对采集任务进行编辑操作编辑时,不能修改采集类型(数据源类型)、采集对象(数据源名称、库范围),只能编辑任务名称、表范围、表描述、调度周期、执行资源。

    • 库范围为:ALL或多个库时,表范围只能选择「全部表」,不可编辑;
    • 库范围为:单个库时,表范围可以选择「全部表」、「自定义」,可编辑。

    删除采集任务

    • 元数据采集任务删除,对应实例也全部删除,并删除任务采集下所有已采集的元数据。
    • 若有正在运行的实例,不能删除任务,提示已有正在运行的实例,请停止后删除。

    查看实例详情

    单击查看实例按钮进入实例详情界面,展示当前任务所有实例页面,实例保存一个月。

    注意:不能查看采集结果的状态:草稿、待触发、运行中、已暂停、暂停中

    表六 实例详情列表字段说明

    字段名称 字段描述
    实例ID 任务执行的实例ID
    执行状态 采集任务的执行状态:草稿、待触发、运行中、成功、部分成功、失败、已暂停、暂停中
    实例类型 周期任务、一次性任务、手动执行
    开始时间 采集任务开始时间
    结束时间 采集任务结束时间
    执行耗时 任务执行耗时
    采集结果 单击采集结果查看已采集数/总数。
  • 表类型:变更表、未变更表和失败表(可查看失败原因)
  • 变更类型:新增表、删除表和更新表
  • 标签管理

    1. 登陆百度数据湖管理与分析平台EasyDAP进入首页,单击侧边导航数据治理>数据地图>标签管理,进入标签管理界面。
    2. 单击创建标签按钮,进入创建页面,填写标签名称和描述后单击确认按钮标签创建成功。
    3. 标签创建完毕后会以列表形式展示,支持按照标签名称进行搜索。列表展示创建时填写的标签名称和描述,还展示创建人和创建时间。
    4. 对标签可以进行编辑和删除操作,标签支持进行批量删除。
    上一篇
    数据架构
    下一篇
    数据血缘