作业组
更新时间:2024-08-28
新增文件夹/作业
作业组支持按照文件夹进行分组管理,新建作业前可以选择新增文件夹。
- 选择侧边导航或者快速访问中数据加工>开发(顶部导航)>作业组后进入作业组。
- 新建文件夹。单击新建按钮选择新建文件夹,填写相关配置项即可新建成功。
- 新建作业组。单击新建按钮选择新建作业,文件夹支持自行选择存放,填写完毕点击确定新建成功。
作业组配置
作业组的节点目前支持七种类型:可视化作业、脚本作业、作业组、数据治理、数据集成、数据安全、AI模型。具体类型节点包括:
表一 节点类型说明
节点类型 | 具体节点 |
---|---|
可视化作业 | 可视化 |
脚本作业 | Shell、Python、Spark、SparkSQL、HIVESQL、JDBCSQL、PySpark、Scala |
作业组 | 作业组 |
数据治理 | Quality |
数据集成 | 离线同步 |
数据安全 | 数据脱敏 |
AI模型 | 模型训练、批量预测 |
执行设置
单击具体节点用户可以对节点进行执行相关设置。
表二 执行设置说明
配置项名称 | 配置项说明 |
---|---|
最长执行时间 | 作业运行的时间上限,当超过这个时间上限后,作业失败。 |
失败重试 | 作业执行失败后重试的次数,以及每次重试之间的时间间隔,配置重试之后,作业节点会在配置时间间隔后,再次运行,直到超过重试次数之后,作业节点才算真正失败。 |
设置依赖节点 | 本节点依赖其他任务节点。只有当被依赖节点执行成功之后,此节点才会被执行。 |
优先级设置 | 作业节点的优先级。平台一共分为5级优先级。1-5,数字越高优先级越高。当在同一层级的任务,优先执行优先级高的作业。 |
表三 依赖节点参数配置
表达式 | 说明 | 所依赖节点生效范围 | 说明 |
---|---|---|---|
节点无关语义(5种) | |||
one_success | 对于本节点直接依赖的上游节点,只要有一个节点执行成功,就能满足条件 | 与该节点具有直接依赖关系的节点,表达式中的 jobName 失效,但是需要用"*"作为占位符填充进表达式。 | 支持 "==" |
one_failed | 对于本节点直接依赖的上游节点,只要有一个节点执行失败,就能满足条件。 | 与该节点具有直接依赖关系的节点,表达式中的 jobName 失效,但是需要用"*"作为占位符填充进表达式。 | 支持 "==" |
all_success | 对于本节点直接依赖的上游节点,所有节点都要执行成功,才能满足条件 | 与该节点具有直接依赖关系的节点,表达式中的 jobName 失效,但是需要用"*"作为占位符填充进表达式。 | 支持 "==" |
all_failed | 对于本节点直接依赖的上游节点,所有节点都要执行失败,才能满足条件 | 与该节点具有直接依赖关系的节点,表达式中的 jobName 失效,但是需要用"*"作为占位符填充进表达式。 | 支持 "==" |
all_done | 对于本节点直接依赖的上游节点,所有节点都要执行完成,才能满足条件。 | 与该节点具有直接依赖关系的节点,表达式中的 jobName 失效,但是需要用"*"作为占位符填充进表达式。 | 支持 "==" |
节点相关语义(2种) | |||
success | 对于本节点直接依赖的上游节点,其中某个节点执行成功,即满足条件。 | 与该节点具有依赖关系(直接或间接)的节点,表达式中需准确指定 jobName。 | 支持 "==" |
failed | 对于本节点直接依赖的上游节点,其中某个节点执行失败,即满足条件。 | 与该节点具有依赖关系(直接或间接)的节点,表达式中需准确指定 jobName。 | 支持 "==" |
作业组开发配置
作业组配置位于整个工作台的右边,单击不同配置项可以根据需要对作业进行配置。不同设置之间可进行点击切换。
表四 配置项说明
配置项名称 | 配置项说明 |
---|---|
基本信息 | 显示作业组的基本信息,并能够进行描述修改。 |
参数设置 | 支持参数设置填写,如果作业组和作业设置了同名的参数,则作业中设置的参数优先级高于作业组中设置的参数。 单击右侧参数设置,弹出脚本作业的参数设置。设置的参数可以在作业组中的作业进行引用。 |
版本 | 在作业发布后,可在此处查看历史版本、执行版本回滚操作。 |
表五 spark参数配置说明
参数名称 | 默认值 | 操作 | 是否必填 |
---|---|---|---|
spark.driver.memory | 1g | + - | 否 |
spark.driver.cores | 1 | + - | 否 |
spark.executor.instances | 1 | + - | 否 |
spark.executor.memory | 1g | + - | 否 |
spark.executor.cores | 1 | + - | 否 |
作业组开发操作
在作业开发运行过程中,可对作业进行不同操作,包括但不限于保存、发布和执行。
表六 脚本开发操作说明
操作项名称 | 操作项说明 |
---|---|
作业保存 | 单击面板上方保存按钮可保存当前作业,直到右上角显示作业保存成功。 |
作业发布 | 单击面板上方发布,可将当前作业提交为一新的版本,并可在右侧配置中选择版本浏览历史版本、执行版本回滚操作,同时将当前作业发布到任务运维中心。 |
作业执行 | 单击页面上方执行,进行作业组测试运行,且在执行信息中弹出执行日志信息。 |
作业导出/导入 | |
重新加载 | 重新加载覆盖当前内容。 |