百度智能云

搜索本产品文档关键词

所有文档

没有找到结果，请重新输入

百度数据湖管理与分析平台 EDAP

Spark作业

更新时间：2024-08-28

新增文件夹/作业

Spark作业支持按照文件夹进行分组管理，新建作业前可以选择新增文件夹。

选择侧边导航或者快速访问中数据加工>开发（顶部导航）>实时开发（侧边导航）>Spark作业后进入作业组。
新建文件夹。单击新建按钮选择新建文件夹，填写相关配置项即可新建成功。
新建作业。单击新建按钮选择新建作业，文件夹支持自行选择存放，填写完毕点击确定新建成功。新建Scala作业，呈现Scala代码编写面板，支持进行Scala代码的编写。新建Spark自定义作业需要对作业进行配置。

表一新建作业配置项说明

配置项名称	配置项说明
作业类型	选择Spark Scala作业或Spark自定义作业。
执行引擎	Spark Streaming。
作业名称	只能包含英文字母、数字、中划线和下划线，且以英文字母开头，不大于50个字符。
存放文件夹	选择存放的文件夹位置。
描述	填写对作业的描述。

表二 Spark自定义作业参数配置

参数名称	说明
主程序包路径	选择主程序文件路径，如HDFS没有对应文件请上传文件，点击上传文件弹窗显示上传文件操作框。
主程序包名称	填写程序包名称。
主类名称	填写主类名称。
Spark Main参数	填写相关参数，Spark 主类参数，支持多参数填写。

Spark作业配置

在Flink作业面板右侧可以查看作业配置，配置间可点击切换。

表三 Spark配置说明

作业配置名称	配置说明
基本信息	单击右侧配置信息>基本信息，可展开查看可视化作业的基本信息，包括作业名称、责任人、作业类型和描述。支持对描述进行修改。
参数设置	单击参数设置，填写弹窗内参数内配置项。参数名称：自定义参数名称参数值：填写参数值，支持固定值及时间宏函数添加/删除：添加一行参数或删除一行参数
引擎设置	1.单击引擎设置，可以根据计算需求选择不同引擎配置，可手动填写。 2.引擎也支持参数设置，具体描述参照参数设置即可。
版本	在作业发布后，可在此处查看历史版本、执行版本回滚操作。

表四引擎设置说明

参数名称	默认参数值	操作	默认提示	参数名称-输入规则限制	默认参数值-输入规则限制
spark.driver.cores	1	+ -		支持字母(a-z)和小数点（.）256字符以内	支持字母(a-z)和数字(0-9)，长度24个字符
spark.driver.memory	1g	+ -
spark.executor.cores	1	+ -
spark.executor.instances	1	+ -
spark.executor.memory	1g	+ -

作业操作

在作业运行过程中，可对作业进行不同操作，包括但不限于保存、发布和执行。

表五实时Flink作业操作说明

操作项	操作说明
作业保存	单击面板上方保存按钮。
发布作业	单击面板上方发布按钮，可将当前作业提交为新的版本。发布完成后可在面板右侧版本中查看历史版本、执行版本回滚操作，同时将当前作业发布到任务运维中心。
作业停止	单击面板上方停止按钮，可停止当前作业。
执行作业	单击页面上方执行，进行可视化作业测试运行，且在执行信息中弹出执行日志信息。
作业导出/入	可视化作业支持导入导出，单击导出，将当前作业导出为json文件。
计算资源	点击页面上方计算资源弹出作业资源设置框，对脚本作业进行资源设置。