数据血缘
更新时间:2026-05-13
百度胜算数据血缘,监控数据对象和相关任务变化状态,进行血缘解析,提供数据在生产流转过程中的血缘关系。旨在帮助您分析数据对象的上下游关联关系,定位影响层级和任务依赖关系,可快速发现和回溯对其他数据对象的影响。
功能介绍
百度胜算数据血缘模块用于刻画数据在平台内从产生、加工到消费的完整流转关系,统一覆盖结构化与非结构化数据对象,帮助用户清晰理解数据表、数据文件在不同计算任务与业务流程中的上下游依赖关系。
该模块通过对数据集成任务、Notebook、工作流及多种计算引擎执行过程的血缘解析与采集,自动构建跨对象、跨引擎的数据加工链路,并以血缘列表与血缘图谱两种视图进行统一展示。用户可以快速查看数据来源、加工路径及数据去向,为数据发现、问题排查、影响评估及治理决策提供可靠依据。
数据血缘模块以“自动采集、统一建模、可视化分析、稳定可追溯”为设计目标,即使数据对象被删除或用户无访问权限,血缘结构仍然保留,确保数据流转关系的完整性与可追溯性,支撑企业级数据治理与合规需求。
其核心价值体现在:
- 全链路可视化:以列表与图谱形式直观呈现数据对象的上下游关系与流转路径。
- 多对象统一建模:统一展示 Notebook、工作流、数据集成任务、数据表、数据卷及数据路径等多类对象的血缘关系。
- 多引擎血缘解析:支持 Doris、Spark、Ray 等多种计算引擎的血缘解析与自动采集。
- 时间维度追溯:支持按时间范围筛选血缘关系,聚焦近期活跃的数据链路,提升排查与分析效率。
- 稳定可追溯:即使对象被删除或无访问权限,仍保留血缘结构,保障血缘关系的完整性与历史可追溯性。
典型场景
场景一:帮助您快速找到想要的数据,并且了解数据对象的详情和上下游血缘关系。
场景二:帮助开发人员高效地定位问题,在问题排查时能评估故障影响范围。
- 归因分析(上游):采用向上追溯的方式查找数据来源于哪里,经过了哪些加工和处理。常用于在发现数据问题时,追溯上游表、字段,快速定位和找到数据问题的原因。
- 影响分析(下游):影响分析是向下游追踪,用来查询和定位数据去了哪里。常用于当元数据发生变更时,分析和评估变更对下游业务的影响。
术语定义
- 上游对象:数据的来源对象,即当前数据对象的数据源自该对象。
- 下游对象:数据的去向对象,即当前数据对象的数据会流转至该对象进行加工、存储或使用。
前提条件
当前账号有数据血缘权限。
查看数据血缘列表
- 登录百度胜算控制台,在选中的工作空间操作列单击打开按钮,进入空间内。
- 侧边导航依次选择数据连接与集成>数据血缘,然后在左侧目录选择数据对象。
-
根据数据对象类型选择对应页签:
- 查看结构化数据集、媒体集:在工作台页签操作;
- 查看数据表、数据卷:在元数据页签操作,支持额外按数据源类型筛选。
- 在列表中找到目标对象,支持按名称搜索。
-
选中对象后,即可查看对应的数据血缘列表。
- 结构化数据集、数据表:支持按关联对象搜索;
- 媒体集、数据卷:额外支持按全部路径搜索。
- 所有对象均支持按时间范围筛选:最近一周、最近一个月、最近三个月、最近六个月、最近一年。
表1 数据血缘列表项
| 列表项名称 | 说明 |
|---|---|
| 关联对象 | 显示与当前数据对象存在数据血缘关系的对象。 |
| 上 / 下游 | 标识关联对象相对于当前数据对象的上下游位置关系。 |
| 类型 | 说明关联对象的类型,类型分为全部、Notebook、工作流、数据集成、数据管道、数据表、结构化数据集、数据卷、媒体集、外部数据路径、SQL任务。 |
| 最近活跃时间 | 记录关联对象最近一次与当前数据对象产生数据交互或活跃的时间。 |
被删除或无权限查看的对象仍然在数据血缘列表处展示,但不支持单击或查看详情。
查看数据血缘图谱
- 登录百度胜算控制台,在选中的工作空间操作列单击打开按钮,进入空间内。
- 侧边导航依次选择数据连接与集成>数据血缘,然后在左侧目录选择数据对象。
- 选择目标数据对象后,单击查看数据血缘图谱。
图谱支持以下操作:
- 节点查看详情:选择任意一个节点,右侧展开节点详细信息。包括所有者、存储路径、血缘。
- 单击连线查看血缘链路详情:用户点击连线,右侧展开血缘链路详细信息。展示源对象、目标对象、最近活跃时间和血缘采集来源。
- 单击表字段现实字段级血缘:单击表字段,展开字段列表并高亮当前字段的上下游链路。
- 展开节点上下游:默认仅展示当前对象上下游各1层,可逐层展开,未展开上下游的节点会有对应的上下游节点展开按钮,单击后刷新图谱,刷新完成后显示对应上下游内容。
- 其他操作:支持恢复默认图谱、居中视图、全屏查看、缩小和放大。
被删除或无权限查看的对象仍然在数据血缘图谱处展示,但不支持单击或展开。
数据血缘采集来源
| 模块 | 支持场景 |
|---|---|
| 数据集成 | 支持文件离线采集、库表离线采集、库表实时采集任务自动解析相关血缘。 |
| Notebook | 支持Spark SQL、Doris SQL、Spark python、Ray python自动解析相关血缘。 |
| 工作流 | 支持文件采集、库表采集、notebook、SparkJar任务、PySpark任务、Ray任务、算子任务节点自动解析相关血缘。 |
| SQL任务 | 支持JDBC SQL任务自动解析相关血缘。 |
| 数据管道 | 支持结构化数据集自动解析相关血缘;媒体集仅支持PDF或Markdown类型自动解析相关血缘。 |
评价此篇文章
