工作流支持组件类型
百度胜算为您提供了丰富的数据处理组件和算子,包含文件采集、库表采集、算子任务、NoteBook、Ray任务、SparkJar任务、PySpark任务、依赖检查、训练任务、SQL任务及质量监控任务。本文将对以上组件进行详细介绍。
文件采集
文件采集是百度胜算提供的非数据库类文件数据一站式接入组件,支持SFTP、FTP和HDFS存储类型的数据源,同时支持将任意格式文件上传至平台数据卷作为采集来源,帮助您快速将分散在各类存储系统中的文件数据导入百度胜算平台,完成自动化解析与结构化处理。
- 在编辑工作流界面,单击左侧文件采集组件。
- 然后在画布中单击文件采集组件,可在右侧查看或编辑组件的基本信息。具体配置详情,可参见下表:
| 配置项名称 |
配置项说明 |
| 任务节点名称 |
展示当前任务节点的名称,可对名称进行修改。 |
| 任务节点ID |
任务节点的唯一标识。可单击右侧复制按钮复制ID。 |
| 任务组件 |
当前组件的名称,文件采集。 |
| 描述 |
对组件添加描述,不超过500字。 |
| 任务名称 |
在下拉框中选择目标任务。注意:仅已发布的任务可在下拉列表展示。 |
- 当前组件支持配置重试策略与通知告警,其中通知告警规则可参考工作流管理模块的通知告警配置;重试策略的具体配置说明详见下表:
| 配置项名称 |
配置项说明 |
| 是否重试 |
选择是否开启重试功能。 |
| 重试次数 |
设置任务失败后的最大重试次数。 |
| 重试间隔 |
设置每次重试之间的时间间隔。 |
库表采集
库表采集是百度胜算提供的数据库类表数据一站式接入组件,支持MySQL、Oracle、SQLServer、PostgreSQL、HANA、Kafka存储类型的数据源,同时支持离线和在线库表采集,帮助您快速将分散在各类数据库或消息队列中的表数据导入百度胜算平台,完成自动化同步与标准化处理。
- 在编辑工作流界面,单击左侧库表采集组件。
- 然后在画布中单击库表采集组件,可在右侧查看或编辑组件的基本信息。具体配置详情,可参见下表:
| 配置项名称 |
配置项说明 |
| 任务节点名称 |
展示当前任务节点的名称,可对名称进行修改。 |
| 任务节点ID |
任务节点的唯一标识。可单击右侧复制按钮复制ID。 |
| 任务组件 |
当前组件的名称,库表采集。 |
| 描述 |
对组件添加描述,不超过500字。 |
| 任务名称 |
在下拉框中选择目标任务。注意:仅已发布的任务可在下拉列表展示。 |
- 当前组件支持配置重试策略与通知告警,其中通知告警规则可参考工作流管理模块的通知告警配置;重试策略配置可参考上方文件采集组件的配置规则。
算子任务
算子任务是百度胜算提供的数据处理流程最小单元式一站式编排组件,支持数据源读取、数据过滤、字段转换、关联聚合、结果写入等各类通用算子能力,同时支持自定义算子参数配置、并行度设置与资源规格适配作为运行来源,帮助您快速组装搭建全链路数据处理流程,完成数据的清洗转换、加工计算与落地入库。
- 在编辑工作流界面,单击左侧算子任务组件。
- 然后在画布中单击算子任务组件,可在右侧查看或编辑组件的基本信息。具体配置详情,可参见下表:
| 基本信息项 |
说明 |
| 任务节点名称 |
展示当前任务节点的名称,可对名称进行修改。 |
| 任务节点 |
任务节点的唯一标识。 |
| 任务组件 |
算子任务。 |
| 描述 |
对组件添加描述,不超过500字。 |
| 信息项 |
说明 |
| 并发数 |
选择并发数,最小值1,最大值10。 |
| 批处理大小 |
选择批处理大小,默认是16,最小值1,最大值100000。 |
| 实例类型 |
任务运行时将使用工作流任务所属项目绑定资源组中的RAY类型数据处理实例,请确保已配置相关资源。包括以下三种类型: 数据处理实例/RAY:为用户预购买的专属常驻资源,任务提交更快速,适合开发、测试、快速输出结果的场景。 共享资源队列/RAY:资源队列采用Serverless架构,是共享资源、无需预先购买,资源使用按照任务使用量付费,适合任务例行执行、规模化任务处理的场景。 独占资源队列/RAY:为用户预购买的专属非常驻资源,是独享资源,适合任务例行执行、规模化任务处理的场景。 |
- 在左侧可选择算子,支持按关键字检查算子。内置去重、嵌入、抽取、过滤、处理、输入、输出等常用算子,同时支持自定义算子接入,满足多样化数据加工编排需求。
NoteBook
Notebook是百度胜算提供的交互式数据分析与开发一站式组件,支持在线编写、调试和运行 Python、SQL 等代码脚本,同时支持自定义环境依赖与多类型资源文件挂载作为运行来源,帮助您快速完成数据探索、逻辑开发、算法调试与实验分析,实现代码任务的在线编辑、即时执行与结果可视化呈现。
- 在编辑工作流界面,单击左侧NoteBook组件。
- 然后在画布中单击NoteBook组件,可在右侧查看或编辑组件的基本信息、执行资源。具体配置详情,可参见下表:
| 配置项名称 |
配置项说明 |
| 任务节点名称 |
展示当前任务节点的名称,可对名称进行修改。 |
| 任务节点ID |
任务节点的唯一标识。可单击右侧复制按钮复制ID。 |
| 任务组件 |
当前组件的名称,NoteBook。 |
| 描述 |
对组件添加描述,不超过500字。 |
| 运行代码路径 |
输入运行代码路径,单击浏览可选择路径。 |
| 配置项名称 |
配置项说明 |
| 引擎来源 |
可选范围为RAY、DORIS、SPARK。任务运行时将使用工作流任务所属项目绑定资源组中的数据处理实例或分析与AI搜索实例,请确保已配置相关资源。 |
Ray任务
Ray任务是百度胜算基于Ray分布式计算框架提供的高性能弹性分布式任务调度组件,支持将复杂计算逻辑拆分为并行子任务分布式调度运行,适配大算力、高并发、多节点的计算场景,帮助用户快速完成海量数据处理、算法训练与批量作业调度,实现任务的弹性扩容、资源隔离与高效并行执行。
- 在编辑工作流界面,单击左侧Ray任务组件。
- 然后在画布中单击Ray任务组件,可在右侧查看或编辑组件的基本信息、执行资源。具体配置详情,可参见下表:
| 配置项名称 |
配置项说明 |
| 任务节点名称 |
展示当前任务节点的名称,可对名称进行修改。 |
| 任务节点ID |
任务节点的唯一标识。可单击右侧复制按钮复制ID。 |
| 任务组件 |
当前组件的名称,Ray任务。 |
| 描述 |
对组件添加描述,不超过500字。 |
| 运行代码路径 |
输入运行代码路径,单击浏览可选择路径。 |
| 入口命令 |
输入入口命令,不超过256字。 |
| 环境变量 |
输入参数名,参数值,支持单击添加参数按钮添加参数。 |
| 配置项名称 |
配置项说明 |
| 资源类型 |
任务运行时将使用工作流任务所属项目绑定资源组中的RAY类型数据处理实例,请确保已配置相关资源。包括数据处理实例/RAY、共享资源队列/RAY、独占资源队列/RAY三种类型。 |
| 算力类型 |
当资源类型为数据处理实例/RAY时,需配置算力类型,支持CPU、GPU。 |
| 单副本配置 |
当资源类型为共享资源队列/RAY、独占资源队列/RAY时,需配置单副本配置。共享资源队列/RAY目前仅支持CPU,独占资源队列/RAY支持A10、A1000、CPU。 |
| CPU数量 |
当资源类型为共享资源队列/RAY、独占资源队列/RAY时,需配置CPU数量。 |
| GPU数量 |
当资源类型为独占资源队列/RAY时,需配置GPU数量。 |
| 副本数 |
当资源类型为共享资源队列/RAY、独占资源队列/RAY时,需配置副本数。 |
SparkJar任务
SparkJar任务是百度胜算提供的Spark原生Jar包一站式运行组件,支持上传自定义SparkJar程序并配置运行参数、资源队列及依赖环境,帮助快速调度执行离线批量计算、大数据业务逻辑任务,实现 Jar 作业的标准化提交与分布式调度运行。
- 在编辑工作流界面,单击左侧SparkJar任务组件。
- 然后在画布中单击SparkJar任务组件,可在右侧查看或编辑组件的基本信息、执行资源。具体配置详情,可参见下表:
| 配置项名称 |
配置项说明 |
| 任务节点名称 |
展示当前任务节点的名称,可对名称进行修改。 |
| 任务节点 |
系统自动生成的任务节点唯一标识。 |
| 任务组件 |
SparkJar任务。 |
| 描述 |
对组件添加描述,不超过500字。 |
| 依赖库 |
输入运行代码路径,单击浏览可选择路径。单击添加参数按钮,可添加依赖库。 |
| 主类名称 |
填写主类名称,不超过128个字符。 |
| 主类参数 |
输入主类参数名,参数值,支持单击按钮添加参数。 |
| 环境变量 |
输入参数名、参数值,支持单击按钮添加参数。 |
| 配置项名称 |
配置项说明 |
| 实例类型 |
SPARK。任务运行时将使用工作流任务所属项目绑定资源组中的通用资源队列,请确保已配置相关资源。 |
| Spark配置 |
输入Spark核数、内存和副本数等必填参数后,可单击按钮添加配置。 |
依赖检查
依赖检查是百度胜算内置的任务前置合规校验能力,可自动检测任务运行所需资源、环境包、第三方依赖及关联节点配置是否完备,提前识别缺失、冲突、版本不兼容等问题,规避任务运行报错,保障作业稳定正常调度。
- 在编辑工作流界面,单击左侧依赖检查组件。
- 然后在画布中单击依赖检查组件,可在右侧查看或编辑组件的基本信息、依赖检查。具体配置详情,可参见下表:
| 配置项名称 |
配置项说明 |
| 任务节点名称 |
展示当前任务节点的名称,可对名称进行修改。 |
| 任务节点ID |
系统自动生成的任务节点唯一标识。 |
| 任务组件 |
依赖检查。 |
| 描述 |
对依赖检查组件添加描述,不超过500字。 |
| 工作空间 |
选择您有权限的工作空间。 |
| 工作流名称 |
全部工作流。 |
| 依赖类型 |
支持选择依赖工作流、依赖任务。 |
| 任务名称 |
当选择依赖任务时,需下拉选择任务名称。 |
| 环境变量 |
输入参数名、参数值,支持单击按钮添加参数。 |
| 检查周期 |
小时级:当前小时,当前1小时,前2小时,前3小时,前12小时,前24小时。 天级:今天、昨天(昨天0点-24点)、前两天(前天0点-昨天24点)、前三天(前三天0点-昨天24点)、前七天(前七天0点-昨天24点)。 周级:本周、上一周(上周一到上周日)、上二周(上二周一到上周日)、上三周(上三周一到上周日)。 月级:本月/上月(1-31号)。 |
| 配置项名称 |
配置项说明 |
| 时间间隔 |
选择时间间隔,最小60秒。 |
| 失败后策略 |
失败/等待。 失败:依赖的上游工作流/任务失败当前任务直接失败; 等待:依赖的上游工作流/任务失败失败当前任务继续等待。 |
| 失败等待时间 |
选择失败的时候,需选择失败等待时间,最小1分钟。 |
Pyspark任务
Pyspark任务是百度胜算提供的Python分布式大数据开发运行组件,支持在线编辑、提交并调度PySpark代码,适配数据清洗、特征加工、统计分析等场景,依托集群资源实现Python代码的分布式并行计算与任务全生命周期管理。
- 在编辑工作流界面,单击左侧Pyspark任务组件。
- 然后在画布中单击Pyspark任务组件,可在右侧查看或编辑组件的基本信息、执行资源。具体配置详情,可参见下表:
| 配置项名称 |
配置项说明 |
| 任务节点名称 |
用于标识当前 PySpark 任务节点,可自定义命名,字符限制在 0-256 ,方便区分不同任务。 |
| 任务节点 ID |
系统自动生成的任务节点唯一标识,一般用于后台识别和关联,无需手动修改。 |
| 任务组件 |
显示当前任务的组件类型,这里固定为 “PySpark 任务” ,表明任务性质。 |
| 描述 |
可输入对该 PySpark 任务的说明文字,辅助理解任务功能等,最多 500 字。 |
| 程序文件 |
需指定 PySpark 任务的程序文件路径,单击浏览选择文件,未输入会提示错误,是任务执行的核心代码文件。 |
| 依赖库 |
填写任务运行依赖的库路径,单击浏览选择,未正确输入会提示错误,用于补充任务执行所需的依赖资源,可 “添加依赖库” 增加多个。 |
| 主类参数 |
填写 PySpark 任务主类相关参数,按任务需求配置,字符限制 0/500 ,影响任务执行逻辑。 |
| 环境变量 |
可添加任务运行时的环境变量,包括参数名和参数值,用于设置任务执行的环境条件,可 “添加参数” 增加多个。 |
| 配置项名称 |
配置项说明 |
| 实例类型 |
SPARK。任务运行时将使用工作流任务所属项目绑定资源组中的通用资源队列,请确保已配置相关资源。 |
| Spark配置 |
输入Spark核数、内存和副本数等必填参数后,可单击按钮添加配置。 |
训练任务
训练任务是百度胜算面向AI场景提供的模型训练一站式调度组件,支持配置数据集、算法脚本、运行资源及超参参数,可自动化完成模型训练、迭代调优、日志监控与模型保存,快速支撑机器学习、深度学习等AI建模场景落地。
- 在编辑工作流界面,单击左侧训练任务组件。
- 然后在画布中单击训练任务组件,可在右侧查看或编辑组件的基本信息、执行资源。具体配置详情,可参见下表:
| 配置项名称 |
配置项说明 |
| 任务节点名称 |
用于标识当前 训练任务节点,可自定义命名,字符限制在 0-256 ,方便区分不同任务。 |
| 任务节点 ID |
系统自动生成的任务节点唯一标识,一般用于后台识别和关联,无需手动修改。 |
| 任务组件 |
显示当前任务的组件类型,这里固定为 “训练任务” ,表明任务性质。 |
| 描述 |
可输入对该训练任务的说明文字,辅助理解任务功能等,最多 500 字。 |
| 资源池 |
需选择训练任务执行所依赖的资源池,资源池提供任务运行所需的计算、存储等资源。 |
| 模板训练任务 |
选择用于该训练任务的模板,模板包含了一些预设的训练任务配置等信息。 |
| 任务名称 |
输入训练任务的具体名称,用于明确任务标识,字符长度限制在 0/256 以内。 |
| 执行命令 |
输入训练任务执行的命令,是任务运行的核心指令。 |
| 数据源 |
可单击添加数据源按钮添加训练任务所需的数据源,为训练提供数据输入。 |
| 环境变量 |
可添加任务运行时的环境变量,包括参数名和参数值,用于设置任务执行的环境条件,可单击添加参数按钮可增加多个。 |
| 配置项名称 |
配置项说明 |
| 资源池 |
需选择训练任务执行所依赖的资源池,资源池提供任务运行所需的计算、存储等资源。 |
| 队列 |
要选择训练任务在资源池中所属的队列。队列用于对资源池内的资源进行更细粒度的管理和调度。 |
SQL 任务
SQL 任务是百度胜算提供的标准化数据开发调度组件,支持编写并运行多引擎兼容的 SQL 脚本,涵盖数据查询、表同步、ETL 加工、统计汇总等场景,可灵活配置调度周期、依赖关系与运行资源,实现数据流程自动化编排与执行。
- 在编辑工作流界面,单击左侧SQL任务组件。
- 然后在画布中单击SQL任务组件,可在右侧查看或编辑组件的基本信息、执行资源。具体配置详情,可参见下表:
| 配置项名称 |
配置项说明 |
| 节点名称 |
输入节点名称,用户自定义的 SQL 任务节点名称,不超过256个字符。 |
| 节点 ID |
系统自动生成的节点ID。 |
| 任务组件 |
SQL 任务。 |
| 描述 |
输入SQL 任务描述,用户针对节点的自定义描述,不超过512个字符。 |
| 代码路径 |
单击浏览选择工作区内.sql文件,其他文件类型不支持。 |
| 数据源类型 |
基于文件配置选择数据源类型。 |
| 数据源 |
基于文件配置显示数据源。 |
| 配置项名称 |
配置项说明 |
| 实例类型 |
JDBC。任务运行时将使用工作流任务所属项目绑定资源组中的客户端类型数据处理实例,请确保已配置相关资源。 |
质量监控任务
质量监控任务是百度胜算面向数据治理提供的数据规则校验与监控组件,支持配置完整性、唯一性、一致性、值域合规等质量规则,定时巡检数据表与字段质量,异常自动触发告警通知,保障数据准确可靠、可用可管。
- 在编辑工作流界面,单击左侧质量监控任务组件。
- 然后在画布中单击质量监控任务组件,可在右侧查看或编辑组件的基本信息、执行资源。具体配置详情,可参见下表:
| 配置项名称 |
配置项说明 |
| 任务节点名称 |
数据质量监控任务的节点标识,长度限制 8-256 字符 |
| 任务节点 ID |
系统自动生成的任务节点唯一标识。 |
| 任务组件 |
质量监控任务。 |
| 描述 |
对该监控任务的说明,长度限制 500 字符内。 |
| 对象类型 |
选择监控的目标数据载体,可选 “数据表” 或 “数据卷”。 |
| 监控对象 |
具体的监控目标,可通过单击浏览选择。 |
| 监控作业 |
通过下拉选择关联的具体数据质量监控作业。 |
| 配置项名称 |
配置项说明 |
| 实例类型 |
SPARK。任务运行时将使用工作流任务所属项目绑定资源组中的通用资源队列,请确保已配置相关资源。 |
| Spark配置 |
输入Spark核数、内存和副本数等必填参数后,可单击添加参数按钮添加配置。 |