数据治理
一、元数据
元数据和工作空间是什么关系?
元数据(Catalog)与工作空间为绑定关系,一个Catalog可绑定多个工作空间,实现元数据资产在多个工作空间间的共享访问,同时支持工作空间级的访问隔离。
百度胜算的数据表目前支持几种湖格式?分别是什么
目前支持2种,湖格式为Iceberg、Lance。
如何在胜算里创建Lance表
在数据模式(Schema)层级点击“创建数据表”,在“基本信息”中选择数据源格式为Lance表,即可通过可视化建表或DDL建表两种方式创建Lance表,更多配置说明请查看数据表操作文档。


如何接入已有的外部存储数据并在平台中访问?
当前支持通过外部数据卷(External Volume)挂载BOS中已有的数据。创建数据卷时,选择外部卷类型,并配置 BOS 路径及对应的 AK/SK,即可直接访问外部数据。
注意事项:
- BOS路径需与工作空间位于同一地域。
- 建议使用具有BOSFullControl权限的AK/SK,否则可能影响数据卷的读写操作。

刚开通时,元数据中默认存在的System Catalog是什么作用?
System Catalog 是平台默认创建的系统内置Catalog,不占用客户配置的存储空间,无需用户维护,且不支持删除或修改。
当前,System Catalog内置了工作流示例模板所需的数据卷文件,可直接用于功能体验;同时提供平台内置算子的相关说明,方便用户查看和使用。
后续,System Catalog也将作为平台系统资源的统一管理入口,用于存放平台运行过程中产生的系统元数据及其他平台内置资源。
二、数据质量
数据质量检查是实时执行的吗?
不是。百度胜算当前的数据质量规则执行依赖Spark引擎,适合批量数据质量检查,不属于实时检测能力。质量规则通常通过手动运行或工作流调度触发执行。
如何定期执行数据质量任务?如何与工作流联动?
支持将数据质量监控作业作为工作流中的任务节点,通过工作流调度能力实现数据质量任务的定时执行。
例如,可在数据集成任务或 Spark 数据加工任务完成后,自动执行数据质量检查,并根据检查结果决定是否继续执行下游任务或通知相关负责人。
操作步骤:
- 创建质量规则:在数据质量模块中进入对应对象,在规则管理中创建需要执行的质量规则。

- 创建监控作业:创建监控作业,并关联上述创建完成的质量规则。


- 配置工作流: 创建工作流并配置前置任务(如数据集成任务、Spark 数据加工任务等),新增质量监控任务节点,在节点配置中选择对象类型、具体对象及对应的监控作业,并配置所需的 Spark 资源参数。完成节点配置后,在工作流中设置调度策略并开启调度,即可实现数据质量任务的周期性执行。




数据质量检查异常后,系统会自动阻断工作流下游任务吗?
是否阻断下游任务取决于数据质量规则的配置。
如果希望在数据质量检查异常时阻断下游任务,可在创建或编辑数据质量规则时,在告警配置中开启任务阻塞开关。开启后,当该规则在工作流运行过程中触发严重告警时,系统会将当前质量监控节点标记为执行失败,从而阻断下游任务继续执行。

三、数据血缘
为什么看不到某个对象的上下游血缘?
可能原因和处理建议如下表所示:
| 原因 | 说明 | 处理建议 |
|---|---|---|
| 没有上下游任务 | 尚未被任务读取或写入 | 确认是否已有任务产出或消费该对象 |
| 任务暂不支持解析 | 当前任务使用了平台暂不支持解析的脚本或任务类型(如 Shell、R 脚本等),无法生成血缘。 | 检查任务类型是否支持血缘解析,详见数据血缘操作文档中的数据血缘采集来源章节。 |
| 任务未运行成功 | 血缘信息基于任务成功运行记录生成,任务执行失败不会产生血缘。 | 确认相关任务已成功运行后,再查看数据血缘。 |
| 权限不足 | 当前用户未拥有相关对象的元数据查看权限,无法查看血缘信息。 | 联系管理员授予相关对象的元数据查看权限。 |
| 采集延迟 | 血缘采集在任务运行成功后异步执行,通常存在1~2分钟的采集延迟。 | 等待采集完成后刷新页面重新查看。 |
平台对结构化数据血缘支持到什么粒度?
平台支持表级和字段级两种粒度的数据血缘。
在血缘图谱中,可点击表节点上的字段,查看字段级血缘关系。当血缘图谱节点较多或仅需关注表级依赖关系时,可通过图谱下方的字段级血缘折叠/展开按钮,隐藏或显示字段级血缘,切换不同粒度的血缘视图。


平台对非结构化数据血缘支持到什么粒度?
目前非结构化数据血缘支持路径级血缘,具体采集粒度取决于任务或脚本中的输入、输出路径配置。
以工作流中的算子任务为例,系统会根据数据加载器配置的data_path作为输入血缘,以及数据输出器配置的export_path作为输出血缘,自动生成路径级血缘关系。
评价此篇文章
