开发作业
更新时间:2023-12-07
通过一个SPARK STREAM SQL作业实例来展现百度流式计算BSC上端到端的开发流程。本样例作业上游为KAFKA,下游为BOS。
准备工作
- 若没有用户名,请先完成注册,操作请参考 注册百度账号。
- 创建作业前需确保账号已开通流式计算BSC服务,操作请参考 开通服务。
-
在页面左上角选择区域,在不同区域创建的作业所依赖的资源不同。
说明:
- 百度智能云目前开放多区域支持,如果您需要在多区域新增作业,请参考 区域选择说明。
- 在不同区域创建的实例相互独立。
创建作业
- 登录 百度智能云控制台
- 选择 产品服务 > 智能大数据 > 流式计算BSC
- 选择 华北 - 北京 区域 (样例中用到的KAFKA上游主题创建在此区域)
- 创建一个 SPARK_STREAM/SQL 类型的BSC作业,操作请参考 新增作业。
- 通过资源管理,上传KAFKA证书,并绑定至当前作业,操作请参考 资源管理。
-
下载 样例KAFKA证书
说明: 此KAFKA证书仅提供样例主题的读权限。
- 编辑作业
示例作业的完整SQL语句如下(用户可以直接粘贴到编辑器中,更新输出端BOS地址,进行作业调试):
-- 创建输入端表(source),连接KAFKA消息队列
create table source_table_kafka(
stringtype STRING,
longtype BIGINT,
floattype FLOAT,
binarytype Binary,
integertype Integer,
bytetype Byte,
booleantype Boolean,
datetype TIMESTAMP,
doubletype Double,
shorttype Short
) with(
'connector.type' = 'KAFKA',
'connector.topic' = '2a504dd6a8344952b10835451d2d2ebb__BSC_Sample',
'format.encode' = 'JSON',
'connector.properties.bootstrap.servers' = 'kafka.bj.baidubce.com:9091',
'connector.properties.ssl.filename' = 'BSC_Sample_kafka-key.zip'
);
-- 创建输出端表(sink),连接BOS
create table sink_table_bos(
stringtype_out String,
longtype_out BIGINT
) with(
'connector.type' = 'BOS',
'format.encode' = 'JSON',
'connector.path' = 'bos://BOS_BUCKET_NAME/BOS_OBJECT_NAME' -- 用户需替换为实际BOS地址
);
-- 具体作业处理逻辑
insert into
sink_table_bos
select
stringtype AS stringtype_out,
longtype AS longtype_out
from
source_table_kafka
输入/输出端
- 样例中输入端为KAFKA,输出端为BOS(相同region下),具体参数含义及其它支持的输入/输出端类型,请参考 DDL语句。
-
输入端表的Scheme需与具体导入数据格式相匹配
- 若格式为CSV,格式及字段顺序需完全匹配
- 若格式为JSON,字段无需完全匹配
- 输出端表的Scheme需与具体作业逻辑输出数据相匹配
编写处理业务逻辑的SQL语句
样例中,从输入端表选取stringtype
和longtype
两字段,不做额外逻辑处理,仅重命名字段为stringtype_out
和longtype_out
储存于输出端表中。 如需查看其它语法及与语句,请参考 DML语句。
调试作业
- 下载 样例调试数据
-
点击工具栏内 调试 按钮,弹出上传输入端测试数据的页面。如有多输入源,可在页面左侧选择切换输入源。
- 上传文件:现阶段仅支持JSON文件类型
- 选择 文件上传,上传 样例数据 。
- 点击 开始调试 ,开始运行调试作业。
- 作业完成后,会在 调试日志 中提示,用户可在 调试结果 处看到调试结果。
发布作业
点击 发布 按钮,即可发布作业。发布成功后,作业会出现在 作业运维 页面下的作业列表。
启动作业
- 选择 百度流式计算BSC > 作业管理 > 作业运维 ,进入到作业运维页面。
- 在作业列表处选择刚刚创建的作业。
- 选中作业后,点击右侧工具栏 启动 按钮,弹出作业资源配置界面。用户可根据实际需要对 作业起始时间、网络类型、安全组、CU数目及规格进行配置。
- 完成配置后,点击 启动 按钮启动作业。作业启动后,会根据用户所选 CU数目及规格进行收费。
- 作业启动后,可在 作业运维 页面查看作业日志。