Spark作业
更新时间:2024-08-28
新增文件夹/作业
Spark作业支持按照文件夹进行分组管理,新建作业前可以选择新增文件夹。
- 选择侧边导航或者快速访问中数据加工>开发(顶部导航)>实时开发(侧边导航)>Spark作业后进入作业组。
- 新建文件夹。单击新建按钮选择新建文件夹,填写相关配置项即可新建成功。
- 新建作业。单击新建按钮选择新建作业,文件夹支持自行选择存放,填写完毕点击确定新建成功。新建Scala作业,呈现Scala代码编写面板,支持进行Scala代码的编写。新建Spark自定义作业需要对作业进行配置。
表一 新建作业配置项说明
配置项名称 | 配置项说明 |
---|---|
作业类型 | 选择Spark Scala作业或Spark自定义作业。 |
执行引擎 | Spark Streaming。 |
作业名称 | 只能包含英文字母、数字、中划线和下划线,且以英文字母开头,不大于50个字符。 |
存放文件夹 | 选择存放的文件夹位置。 |
描述 | 填写对作业的描述。 |
表二 Spark自定义作业参数配置
参数名称 | 说明 |
---|---|
主程序包路径 | 选择主程序文件路径,如HDFS没有对应文件请上传文件,点击上传文件弹窗显示上传文件操作框。 |
主程序包名称 | 填写程序包名称。 |
主类名称 | 填写主类名称。 |
Spark Main参数 | 填写相关参数,Spark 主类参数,支持多参数填写。 |
Spark作业配置
在Flink作业面板右侧可以查看作业配置,配置间可点击切换。
表三 Spark配置说明
作业配置名称 | 配置说明 |
---|---|
基本信息 | 单击右侧配置信息>基本信息,可展开查看可视化作业的基本信息,包括作业名称、责任人、作业类型和描述。支持对描述进行修改。 |
参数设置 | 单击参数设置,填写弹窗内参数内配置项。 |
引擎设置 | 1.单击引擎设置,可以根据计算需求选择不同引擎配置,可手动填写。 2.引擎也支持参数设置,具体描述参照参数设置即可。 |
版本 | 在作业发布后,可在此处查看历史版本、执行版本回滚操作。 |
表四 引擎设置说明
参数名称 | 默认参数值 | 操作 | 默认提示 | 参数名称-输入规则限制 | 默认参数值-输入规则限制 |
---|---|---|---|---|---|
spark.driver.cores | 1 | + - | 支持字母(a-z)和小数点(.)256字符以内 | 支持字母(a-z)和数字(0-9),长度24个字符 | |
spark.driver.memory | 1g | + - | |||
spark.executor.cores | 1 | + - | |||
spark.executor.instances | 1 | + - | |||
spark.executor.memory | 1g | + - |
作业操作
在作业运行过程中,可对作业进行不同操作,包括但不限于保存、发布和执行。
表五 实时Flink作业操作说明
操作项 | 操作说明 |
---|---|
作业保存 | 单击面板上方保存按钮。 |
发布作业 | 单击面板上方发布按钮,可将当前作业提交为新的版本。发布完成后可在面板右侧版本中查看历史版本、执行版本回滚操作,同时将当前作业发布到任务运维中心。 |
作业停止 | 单击面板上方停止按钮,可停止当前作业。 |
执行作业 | 单击页面上方执行,进行可视化作业测试运行,且在执行信息中弹出执行日志信息。 |
作业导出/入 | 可视化作业支持导入导出,单击导出,将当前作业导出为json文件。 |
计算资源 | 点击页面上方计算资源弹出作业资源设置框,对脚本作业进行资源设置。 |