数据管道任务管理
创建数据管道
- 登录百度胜算控制台,在选中的工作空间操作列单击打开按钮,进入空间内。
- 侧边导航选择数据管道,在数据管道页面右上方单击创建。
- 进入创建任务对话框后,需完成任务名称、所属位置、任务类型和描述四项基础配置,详细配置参数请参见表1。
表1 创建任务配置项说明
| 配置项 | 配置项说明 |
|---|---|
| 任务名称 | 填写任务名称,名称不可重复。支持中文、英文、数字、中划线、下划线,不超过256字符。 |
| 所属项目 | 输入项目路径,也可以单击右侧浏览按钮,选择所属项目。 |
| 任务类型 | 目前暂支持批处理任务类型,适用于数据定期摄入的场景,例如每日更新的销售数据,可通过预设周期自动完成数据的同步与加工。 |
| 描述 | 填写任务描述,不超过500字符。 |
创建成功后,进入可视化界面,数据管道支持4种方式进行数据管道的初始设计,再通过可视化清洗转化为高质量、可信的数据资产。
- 添加平台内数据:可支持直接引入项目内结构化数据集或媒体集,完成数据清洗与转换,为本体建模提供可靠数据。
- 手动录入数据:支持在平台内手工创建与录入数据,适配小规模与临时场景,无缝接入数据管道。
- SQL一键转换Pipeline:支持SparkSQL一键转换为数据管道,实现SQL到数据管道的快速迁移。
- 数据搜索建库模板:提供开箱即用的数据搜索建库模版,覆盖文档解析、清洗、切片、增强、向量化的流程,结果写入本体,支撑数据搜索服务的构建。
添加平台内数据
单击添加平台内数据卡片,在添加数据对话框选择对应项目,查找并选择业务所需的结构化数据集或媒体集作为输入数据。
适用场景:适用于使用平台内已存储、已管理的结构化数据集或媒体集作为数据处理流程的输入源,无需外部上传,直接复用现有数据资源。
手动录入数据
单击手动录入数据卡片,在输入表页面可修改默认三列的列名称、列类型以及列描述,支持按需新增列,并直接录入对应数据,完成自定义数据输入。
适用场景:适用于无现成数据集、需快速自定义少量测试数据,或临时录入简单结构化数据作为流程输入的场景。
SQL一键转换Pipeline
- 单击SQL一键转换Pipeline卡片,进入该详情界面。
- 在左侧编辑区编写或粘贴待转换的SQL语句,单击格式转化,会生成声明式SQL(即Pipeline SQL),同时在右侧会生成数据管道预览结果数据,在下方会生成数据预览结果数据。
- 单击数据映射,可对字段映射关系进行配置与调整。
Pipeline SQL说明:Pipeline SQL是与原始SQL语义等价的流水线式表示。 它将SQL拆解为一系列顺序执行的CTE步骤,用于映射数据管道节点,提升数据管道的可读性与可理解性。
适用场景:适用于需将现有标准SQL查询逻辑快速转换为可视化数据管道的场景,可降低手动配置管道的操作成本,便于对数据处理流程进行可视化管理与后续编排。
数据搜索建库模版
单击数据搜索建库模版卡片,进入该详情界面,在算子开发区可通过拖拽、配置系统预置算子,快速完成数据清洗、切片、知识增强、合并、向量转化等标准化处理,一键构建适配数据搜索的知识库,大幅降低建库配置成本。有关算子的详细说明,请参见搜索数据构建文档。
可视化界面概览
完成数据管道的初始设计后,进入数据管道可视化界面,界面整体划分为三大功能区域:算子开发区、管理配置与运行区、数据预览区,各区域功能说明如下:
算子开发区
在算子开发区中可添加并配置各类处理算子,通过可视化拖拽方式编排数据处理逻辑。针对不同算子设置对应的参数与规则,实现数据清洗、字段转换、合并关联、向量化等精细化处理,确保数据按业务需求完成标准化加工。单击算子,可在右侧进行如下操作:
| 操作项 | 操作项说明 |
|---|---|
| 添加算子类型 | 每个算子支持选择Transform、Join、Union、Use LLM和Output(Structure Data、Object Type)5种类型算子。各算子的详细操作说明,请参见支持添加类型文档。 |
| 数据抽样 | 仅支持对结构化的数据集或媒体集进行抽样,输入样本数量,输入抽样规则,抽取一小部分有代表性的样本,用样本数据代替全部数据进行分析。 |
| 编辑 | 仅支持对输入表或算子的配置信息进行编辑。 |
| 重命名 | 对当前数据节点或算子进行重命名。 |
| 删除 | 删除当前数据节点或算子。 |
数据预览区
实时展示各节点处理后的中间数据与最终结果数据,支持数据抽样与结果校验,便于快速验证管道逻辑正确性。
- 选择任意数据节点或算子,即可在本区实时展示当前节点处理后的数据信息。
- 单击添加按钮,可将算子开发区中需要重点关注的数据节点设为固定预览对象。
管理配置与运行区
基本信息
- 单击右侧基本信息按钮,在弹出的配置面板中可查看当前节点的名称、API名称、创建人、创建时间、所属位置和描述,并支持根据业务需求修改节点名称与描述。
- 可配置重试策略,支持选择是否开启重试(默认为否),并可自定义设置重试次数与重试间隔。
执行资源
单击右侧执行资源按钮,在执行资源面板中可查看当前引擎资源的实例类型、资源规格及资源配置信息,支持根据业务需求修改资源规格;单击详情,可查看更完整的资源配置明细。
调度策略
单击右侧调度策略按钮,在调度策略面板中可配置数据管道的执行计划,具体配置项及说明可参考表3。
表3 调度策略配置项说明
| 配置项 | 说明 |
|---|---|
| 优先级 | 设置当前数据管道调度任务的执行优先级,支持最高、高、中、低、最低5种优先级配置。 |
| 调度状态 | 控制调度任务的开启或关闭状态。 |
| 起始时间 | 设置调度任务的生效起始时间,任务将从该时间点开始按规则执行。 |
| 终止时间 | 设置调度任务的结束时间,到达该时间后任务将不再自动调度执行。 |
| 类型 | 选择调度任务的执行类型,支持每小时、每天、每周、每月、每年和CRON表达式6种类型。 |
| 定时时间 | 根据所选调度类型,配置具体的执行时间点。 |
复制或删除
- 单击复制按钮,在弹出的确认对话框中,单击确认完成复制,系统将保存当前数据并复制生成一份全新的数据管道任务。
- 单击删除按钮,在弹出的提示对话框中,单击删除完成删除操作,数据管道任务删除后将无法恢复。
保存并执行
完成配置与测试验证后,可单击保存按钮对当前数据管道任务配置进行持久化存储。确认配置无误后,单击立即执行按钮,系统将按照预设的算子逻辑与参数,启动数据管道任务,完成全流程数据处理。
查看数据管道列表
- 登录百度胜算控制台,在选中的工作空间操作列单击打开按钮,进入空间内。
- 侧边导航选择数据管道,即可查看数据管道任务的详细信息,也可根据名称进行搜索查看,具体字段说明可参考表4。
表4 数据管道列表字段说明
此列表仅展示关键配置项。
| 列表项 | 说明 |
|---|---|
| 任务名称 | 任务名称,单击可进入任务可视化界面。 |
| 调度状态 | 任务的状态,分为开启和关闭。单击按钮可开启调度,如未设置调度策略,单击立即设置可以进行调度策略。 |
| 调度策略 | 设置的任务的调度策略,单击编辑按钮可以对调度策略进行编辑。注意:未配置的任务不允许配置调度策略。 |
| 操作 | 单击不同操作项,执行不同操作。
|
评价此篇文章
