概览
更新时间:2026-05-13
什么是数据管道
数据管道模块是百度胜算操作系统的“数据流转与加工引擎”,负责将多源异构的数据源中的数据,通过传输、清洗、转换等操作,转化为标准化、高质量的可用数据并落地至目标存储。
核心功能
- 数据清洗与转换:提供字段映射、格式转换、数据过滤、去重、聚合等算子能力。
- 数据标准化:统一数据格式、字段规范与数据质量校验。
- 数据输出与落地:将处理后的数据写入目标库、数据仓库、文件或下游应用。
- 任务调度与运行:支持定时、事件触发与实时运行。
数据管道与工作流的区别
数据管道与工作流核心定位不同,二者协同工作但不可混淆,核心区别如下:
| 对比维度 | 数据管道 | 工作流 |
|---|---|---|
| 核心定位 | 专注于数据本身的流动与处理,以“数据从入到出”为主线,聚焦数据全流程加工。 | 专注于业务流程与任务调度,以“流程节点的执行顺序与逻辑”为主线,负责任务统筹编排。 |
| 处理对象 | 数据,核心关注数据格式、数据质量、加工规则、数据吞吐量。 | 任务/节点,核心关注执行顺序、依赖关系、状态流转、重试策略。 |
| 使用场景 | 数据同步、数据加工、数据构建、宽表生成等数据工程场景。 | 复杂业务编排、多系统协同、定时调度、告警通知、人工介入流程等流程管控场景。 |
| 组合关系 | 可作为工作流中的一个执行节点,由工作流统一调度。 | 不直接处理数据,统筹包括数据管道在内的各类任务按业务逻辑执行。 |
评价此篇文章
