工作流
更新时间:2025-08-13
前提条件
- 具备空间管理员或空间普通用户角色。
创建工作流
- 登录百度 DataBuilder控制台,在选中的工作空间操作列单击打开按钮,进入空间内。
- 侧边导航选择工作流,在工作流列表右上方单击创建工作流。
- 填写新建空白工作流相关配置项后确定,工作流创建完成。
表一 创建工作流配置项说明
基本信息配置项
配置项名称 | 配置项说明 |
---|---|
工作流名称 | 填写工作流名称,名称不可重复。支持中文、英文、数字、中划线(-)、下划线(_),不超过256字符。 |
描述 | 填写工作流描述,不超过500字符。 |
运行配置配置项
配置项名称 | 配置项说明 |
---|---|
执行策略 | 并行/串行等待。 提示: 1. 并行执行:如果对于同一个工作流定义,同时有多个工作流实例,则全部并行执行工作流实例。 2.串行执行:如果对于同一个工作流定义,同时有多个工作流实例,可同时执行的工作流实例由最大数并行数决定,超过最大并行数则串行执行工作流实例。 |
最大并行数 | 当执行策略选择串行等待时,需填写此配置项。注意:超过最大并行数据的工作流实例,则排队等待执行,如果最大并行数为1,则所有工作流实例依次串行执行。 |
失败策略 | 继续/结束。 提示:当某一个任务节点执行失败时,其他并行的任务节点需要执行的策略。 ”继续“表示:某一任务失败后,其他任务节点正常执行; ”结束“表示:终止所有正在执行的任务,并终止整个流程。 |
- 创建成功的工作流以列表形式展示,列表支持按照创建时间或更新时间进行排序,同时可以通过调度状态(状态分类:全部、开启、关闭和等待中)进行筛选。
表二 工作流列表项说明
列表项名称 | 说明 |
---|---|
工作流名称 | 工作流的名称,工作流唯一标识。 |
调度状态 | 工作流的状态,分为全部、开启、关闭和等待中。支持通过调度状态进行筛选。单击按钮可开启调度,如未设置调度策略,单击立即设置可以进行调度策略。 |
调度策略 | 设置的工作流调度策略,单击编辑按钮可以对调度策略进行编辑。 |
创建人 | 创建工作流的用户名。 |
创建时间 | 创建工作流的时间。 |
更新时间 | 最新一次操作工作流的时间。 |
操作项 | 单击不同操作项,对工作流进行操作。 |
工作流详情
通过单击工作流列表中工作流名称可以进入工作流详情,在工作流详情编辑区域可以进行可视化操作或 Json 作业。
表三 工作流详情页面操作说明
操作项 | 操作项说明 |
---|---|
编辑 | 在详情页面单击编辑按钮进行可视化操作或对Json作业进行编辑。 1. 工作流基本信息:在工作流详情通过拖拽任务组件可以进行DAG编辑,单击组件右侧展示基本信息,在基本信息界面支持对任务节点名称进行修改。 2. 执行资源:在基本信息按钮下方可查看工作流执行资源,同时对并发数、计算集群和计算资源引擎进行设置。 3.支持的组件类型:文件采集、库表采集、算子任务(对元数据中管理的算子进行编排)、NoteBook、Ray任务、SparkJar任务、依赖检查。 |
导入工作流 | 编辑状态下,可以进行工作流的导入。 单击工作流导入按钮,在导入页面可以通过选择模板导入或者选择自定义导入,自定义导入需单击上传文件按钮进行文件上传。选择导入完成后确定。 注意:导⼊新⼯作流后,原有的⼯作流将会被清空,请谨慎操作。 |
运行 | 单击运行按钮,弹出手动运行工作流弹窗,填写工作流优先级(HIGHEST、HIGH、MEDIUM、LOW、LOWEST)和相关参数信息后确定,执行工作流作业并且生成一条工作流作业运行记录。 |
查看工作流信息 | 在详情页面右边单击作业基本信息图标,可展开查看工作流信息并对工作流名称和描述进行编辑。 |
删除 | 单击详情页面右上角删除工作流按钮,可删除没有正在运行的工作流作业。 注意:工作流删除后,相关运行数据将被清空,请谨慎操作。 |
可视化预览 | 可视化预览在详情页面的右侧,单击可视化预览按钮,可预览当前工作流作业。 |
预置工作流模板
- 支持通过模板创建工作流作业。预置工作流模版在工作流管理中,通过切换tab进入预置作业模板页面。
- 在模板处单击使用模板按钮,进入工作流编辑。工作流名称为模板名称,可以通过页面右边详情按钮修改工作流名称,修改完成后在右边工作流编辑区上方单击保存按钮。
工作流运行记录
单击运行按钮,会执行工作流作业并生成一条工作流作业运行记录。在详情页通过tab切换可查看运行记录,运行记录以列表形式展示。支持按照状态进行筛选,还可以通过开始时间或结束时间进行排序。
- 在工作流列表操作项单击运行记录后,在运行记录列表操作项单击查看按钮进入运行记录详情。支持通过tab切换三种形式查看运行记录:可视化、列表和时间线。
- 单击具体任务名称,即可展示该运行任务的基本信息。此外,通过右侧导航,还能按需选择查看任务结果、执行资源以及任务日志。
运行记录可视化
进入运行记录详情后,通过切换tab页选择可视化。在可视化页面可以查看整个算子处理任务流,节点分组用颜色展示状态,支持按照状态进行筛选可视化展示页面。
运行记录列表
进入运行记录详情后,通过切换tab页选择列表,可以查看当前运行记录任务详细信息,包括任务名称、任务类别和状态等。
表四 运行记录列表说明
列表项 | 说明 |
---|---|
任务名称 | 工作流任务名称。 |
任务类别 | RAY任务、算子。 |
包含节点 | 包含节点数量。 |
状态 | 展示当前任务运行状态。状态类型有:成功、失败、运行中、暂停、终止和等待中。 |
开始时间 | 工作流任务开始时间。 |
结束时间 | 工作流任务结束时间。 |
运行记录时间线
- 进入运行记录详情后,通过切换tab页选择时间线,查看任务时间线。
- 在时间线界面可以查看整个工作流中任务的时间处理时长,按状态分颜色展示。
工作流支持组件类型
在工作流编辑侧,单击不同组件可将组建添加至右侧。
文件采集
单击文件采集组件,右侧导航可选择查看或编辑组件基本信息。
基本信息项 | 说明 |
---|---|
任务节点名称 | 展示当前任务节点的名称,可对名称进行修改。 |
任务节点 | 任务节点的唯一标识。 |
任务组件 | 文件采集。 |
描述 | 对文件采集组件添加描述,不超过500字。 |
任务名称 | 下拉选择任务的名称。 |
库表采集
单击库表采集组件,右侧导航可选择查看或编辑组件基本信息。
基本信息项 | 说明 |
---|---|
任务节点名称 | 展示当前任务节点的名称,可对名称进行修改。 |
任务节点 | 任务节点的唯一标识。 |
任务组件 | 库表采集。 |
描述 | 对库表采集组件添加描述,不超过500字。 |
任务名称 | 下拉选择任务的名称。 |
算子任务
单击算子任务,右侧查看详细信息,包括算子基本信息和执行资源。
- 基本信息
基本信息项 | 说明 |
---|---|
任务节点名称 | 展示当前任务节点的名称,可对名称进行修改。 |
任务节点 | 任务节点的唯一标识。 |
任务组件 | 算子任务。 |
描述 | 对库表采集组件添加描述,不超过500字。 |
- 执行资源
信息项 | 说明 |
---|---|
并发数 | 选择并发数,最小值1,最大值10。 |
计算资源类型 | 常驻集群。 |
计算资源引擎 | RAY。 |
计算集群 | 下拉选择计算集群。 |
NoteBook
单击NoteBook组件,右侧查看详细信息,包括基本信息和执行资源。
- 基本信息
基本信息项 | 说明 |
---|---|
任务节点名称 | 展示当前任务节点的名称,可对名称进行修改。 |
任务节点 | 任务节点的唯一标识。 |
任务组件 | 算子任务。 |
描述 | 对库表采集组件添加描述,不超过500字。 |
运行代码路径 | 输入运行代码路径,单击浏览可选择路径。 |
- 执行资源
信息项 | 说明 |
---|---|
计算资源类型 | 常驻资源。 |
计算资源引擎 | RAY/DORIS/SPARK。 |
计算集群 | 下拉选择计算集群,可以单击计算资源管理可以去创建计算集群。 |
Ray任务
单击Ray组件,右侧查看详细信息,包括基本信息和执行资源。
- 基本信息
基本信息项 | 说明 |
---|---|
任务节点名称 | 展示当前任务节点的名称,可对名称进行修改。 |
任务节点 | 任务节点的唯一标识。 |
任务组件 | Ray任务。 |
描述 | 对库表采集组件添加描述,不超过500字。 |
运行代码路径 | 输入运行代码路径,单击浏览可选择路径。 |
入口命令 | 输入入口命令,不超过256字。 |
环境变量 | 输入参数名,参数值,支持单击按钮添加参数。 |
- 执行资源
信息项 | 说明 |
---|---|
计算资源类型 | 常驻资源。 |
计算资源引擎 | RAY。 |
计算实例 | 下拉选择计算集群,可以单击计算资源管理可以去创建计算集群。 |
SparkJar任务
单击SparkJar任务名称,可在右侧边对基本信息和执行资源进行查看或编辑。
- 基本信息
基本信息项 | 说明 |
---|---|
任务节点名称 | 展示当前任务节点的名称,可对名称进行修改。 |
任务节点 | 任务节点的唯一标识。 |
任务组件 | SparkJar任务。 |
描述 | 对SparkJar组件添加描述,不超过500字。 |
依赖库 | 输入运行代码路径,单击浏览可选择路径。单击添加参数按钮,可添加依赖库。 |
主类名称 | 填写主类名称,不超过128个字符。 |
主类参数 | 输入主类参数名,参数值,支持单击按钮添加参数。 |
环境变量 | 输入参数名、参数值,支持单击按钮添加参数。 |
- 执行资源
信息项 | 说明 |
---|---|
计算资源类型 | 任务实例。 |
计算实例 | 下拉选择计算集群,可以单击计算资源管理可以去创建计算集群。 |
spark配置 | 输入参数名、参数值,支持单击按钮添加参数。 |
依赖检查
单击依赖检查任务名称,可在右侧边对基本信息和依赖检查进行查看或编辑。
- 基本信息
基本信息项 | 说明 |
---|---|
任务节点名称 | 展示当前任务节点的名称,可对名称进行修改。 |
任务节点 | 任务节点的唯一标识。 |
任务组件 | 依赖检查。 |
描述 | 对依赖检查组件添加描述,不超过500字。 |
依赖类型 | 依赖工作流/依赖任务。 |
工作流名称 | 全部工作流。 |
任务名称 | 当选择依赖任务时,需下拉选择任务名称。 |
环境变量 | 输入参数名、参数值,支持单击按钮添加参数。 |
检查周期 |
- 依赖检查
信息项 | 说明 |
---|---|
时间间隔 | 选择时间间隔,最小60秒。 |
失败后策略 | 失败/等待。 |
失败等待时间 | 选择失败的时候,需选择失败等待时间,最小1分钟。 |
Pyspark 组件
单击依赖检查任务名称,可在右侧边对基本信息和依赖检查进行查看或编辑。
- 基本信息
基本信息项 | 说明 |
---|---|
任务节点名称 | 用于标识当前 PySpark 任务节点,可自定义命名,字符限制在 15/256 ,方便区分不同任务。 |
任务节点 ID | 系统自动生成的任务节点唯一标识,一般用于后台识别和关联,无需手动修改。 |
任务组件 | 显示当前任务的组件类型,这里固定为 “PySpark 任务” ,表明任务性质。 |
描述 | 可输入对该 PySpark 任务的说明文字,辅助理解任务功能等,最多 500 字。 |
程序文件 | 需指定 PySpark 任务的程序文件路径,点击 “浏览” 选择文件,未输入会提示错误,是任务执行的核心代码文件。 |
依赖库 | 填写任务运行依赖的库路径,点击 “浏览” 选择,未正确输入会提示错误,用于补充任务执行所需的依赖资源,可 “添加依赖库” 增加多个。 |
主类参数 | 填写 PySpark 任务主类相关参数,按任务需求配置,字符限制 0/500 ,影响任务执行逻辑。 |
环境变量 | 可添加任务运行时的环境变量,包括参数名和参数值,用于设置任务执行的环境条件,可 “添加参数” 增加多个。 |
- 执行资源
信息项 | 说明 |
---|---|
计算资源类型 | spark。 |
计算实例 | 下拉选择计算集群,可以单击计算资源管理可以去创建计算集群。 |
spark配置 | 输入参数名、参数值,支持单击按钮添加参数。 |
组件的重试策略
编辑单个组件时候,可选择是否开启重试策略按钮并填写重试策略参数。
- 是否重试:选择任务执行失败后是否重试,“是” 则失败会尝试重新执行,“否” 则失败后直接终止。
- 重试次数:设置任务重试的次数,当前为 0 次,若开启重试可指定重试次数。