数据血缘

更新时间：2026-05-25

百度胜算数据血缘，监控数据对象和相关任务变化状态，进行血缘解析，提供数据在生产流转过程中的血缘关系。旨在帮助您分析数据对象的上下游关联关系，定位影响层级和任务依赖关系，可快速发现和回溯对其他数据对象的影响。

功能介绍

百度胜算数据血缘模块用于刻画数据在平台内从产生、加工到消费的完整流转关系，统一覆盖结构化与非结构化数据对象，帮助用户清晰理解数据表、数据文件在不同计算任务与业务流程中的上下游依赖关系。

该模块通过对数据集成任务、Notebook、工作流及多种计算引擎执行过程的血缘解析与采集，自动构建跨对象、跨引擎的数据加工链路，并以血缘列表与血缘图谱两种视图进行统一展示。用户可以快速查看数据来源、加工路径及数据去向，为数据发现、问题排查、影响评估及治理决策提供可靠依据。

数据血缘模块以“自动采集、统一建模、可视化分析、稳定可追溯”为设计目标，即使数据对象被删除或用户无访问权限，血缘结构仍然保留，确保数据流转关系的完整性与可追溯性，支撑企业级数据治理与合规需求。

其核心价值体现在：

场景一：帮助您快速找到想要的数据，并且了解数据对象的详情和上下游血缘关系。

场景二：帮助开发人员高效地定位问题，在问题排查时能评估故障影响范围。

当前账号有数据血缘权限。

登录百度胜算控制台，在选中的工作空间操作列单击打开按钮，进入空间内。
侧边导航依次选择数据连接与集成>数据血缘，然后在左侧目录选择数据对象。
根据数据对象类型选择对应页签：
- 查看结构化数据集、媒体集、本体类型：在工作台页签操作，支持按类型进行筛选。
- 查看数据表、数据卷：在元数据页签操作，支持额外按数据源类型筛选。
在列表中找到目标对象，支持按名称搜索。
选中对象后，即可查看对应的数据血缘列表。
- 结构化数据集、数据表、本体类型：支持按关联对象搜索；
- 媒体集、数据卷：额外支持按全部路径搜索。
所有对象均支持按时间范围筛选：最近一周、最近一个月、最近三个月、最近六个月、最近一年。

表1 数据血缘列表项

列表项名称	说明
关联对象	显示与当前数据对象存在数据血缘关系的对象。
上 / 下游	标识关联对象相对于当前数据对象的上下游位置关系。
类型	说明关联对象的类型，类型分为全部、Notebook、工作流、数据集成、数据管道、数据表、结构化数据集、数据卷、媒体集、外部数据路径、SQL任务。
最近活跃时间	记录关联对象最近一次与当前数据对象产生数据交互或活跃的时间。

被删除或无权限查看的对象仍然在数据血缘列表处展示，但不支持单击或查看详情。

图谱支持以下操作：

节点查看详情：选择任意一个节点，右侧展开节点详细信息。包括所有者、存储路径、血缘。
单击连线查看血缘链路详情：用户点击连线，右侧展开血缘链路详细信息。展示源对象、目标对象、最近活跃时间和血缘采集来源。
单击表字段现实字段级血缘：单击表字段，展开字段列表并高亮当前字段的上下游链路。
展开节点上下游：默认仅展示当前对象上下游各1层，可逐层展开，未展开上下游的节点会有对应的上下游节点展开按钮，单击后刷新图谱，刷新完成后显示对应上下游内容。
其他操作：支持恢复默认图谱、子节点血缘开关、居中视图、全屏查看、缩小和放大。其中子节点血缘开关默认开启，开启后可展示外部数据表、数据表、结构化数据集、本体等节点的字段与属性列表，关闭则不再展示相关内容。

被删除或无权限查看的对象仍然在数据血缘图谱处展示，但不支持单击或展开。

模块	支持场景
数据集成	支持文件离线采集、库表离线采集、库表实时采集任务自动解析相关血缘。
Notebook	支持Spark SQL、Doris SQL、Spark python、Ray python自动解析相关血缘。
工作流	支持文件采集、库表采集、notebook、SparkJar任务、PySpark任务、Ray任务、算子任务节点自动解析相关血缘。
SQL任务	支持JDBC SQL任务自动解析相关血缘。
数据管道	支持结构化数据集自动解析相关血缘；媒体集仅支持PDF或Markdown类型自动解析相关血缘。

评价此篇文章

有帮助没帮助