注:由于SPARK\FLINK SQL 语法天然存在区别,百度流式计算SQL没有做到引擎无关,提交到不同引擎的作业在同一个功能的SQL写法上可能存在差异。 名词解释 名词 解释 流式计算平台 streaming system,用于处理数据的实时系统。百度流式计算服务即是一个流式计算平台,可以提供数据集成、数据实时计算等服务,百度流式计算可以用SQL表示数据计算逻辑。
百度流式计算BSC采用按需付费的方式,即用户只需为线上作业运行过程中实际消耗的计算资源量付费,计费可精确到分钟。
新增资源 方法一 进入 百度流式计算BSC > 资源管理 > 资源列表 页。 点击 +新增资源 按钮,弹出新建资源页面。 填写资源名称及资源描述,选择资源类型、上传方式及对应文件路径。
核心概念 作业 是流式计算的业务单元,一个作业描述了一个流式计算完整的数据处理业务逻辑。 CU(Compute Unit) 是流式计算所提供计算资源的基本单位,1 CU包含 m 核CPU和 n GB内存。用户可按实际使用需求选择匹配的CU规格,如 1核4GB, 2核6GB等。 表(TABLE) 与数据库中的表类似。流式计算的表与数据资源进行绑定。
产品服务开通流程 登录 百度智能云控制台 ,选择 产品服务 > 智能大数据 > 流式计算BSC ,进入流式计算BSC。 点击 授权并开通服务 完成服务开通,进入到服务页面。
使用模板创建作业 方法一 进入 百度流式计算BSC > 模板管理 > 模板列表 页。 选择模板列表中的 操作 一栏,点击 新增作业 ,弹出 新增作业 页面。 方法二 进入 百度流式计算BSC > 模板管理 > 模板列表 页。 点击模板名称进入编辑模板界面。 点击工具栏中的 新增作业 ,弹出 新增作业 页面。 方法三 进入 百度流式计算BSC > 作业开发 页。 点击任意作业名,进入作业编辑界面。
开发作业 通过一个SPARK STREAM SQL作业实例来展现百度流式计算BSC上端到端的开发流程。本样例作业上游为KAFKA,下游为BOS。 准备工作 若没有用户名,请先完成注册,操作请参考 注册百度账号 。 创建作业前需确保账号已开通流式计算BSC服务,操作请参考 开通服务 。 在页面左上角选择区域,在不同区域创建的作业所依赖的资源不同。
接口概述 概述 欢迎使用百度智能云的核心产品——百度流式计算BSC (Baidu Streaming Compute)。 百度流式计算BSC提供低延迟、高吞吐、高准确性的流式数据实时处理能力。完全兼容Flink/Spark引擎,支持用户提交SQL, JAR类型作业及UDF函数注册。 您可以使用本文档介绍的API对BSC服务进行灵活的操作。
创建作业前需确保账号已开通流式计算BSC服务,操作请参考 开通服务 。 在页面左上角选择区域,在不同区域创建的作业所依赖的资源不同。 说明: 百度智能云目前开放多区域支持,如果您需要在多区域新增作业,请参考 区域选择说明 。 在不同区域创建的实例相互独立。