产品功能 百度流式计算(BSC)有以下主要功能: 打通并深度融合多款百度智能云存储数据,包括百度消息服务BMS、RDS、BOS、IOT Hub、百度ElasticSearch、TSDB、SCS等数据资源,支持多个数据之间的关联分析。 提供功能强大的 SQL在线编辑器 ,通过编写SQL实现复杂业务的数据处理逻辑。 提供 作业版本管理 功能,记录作业多个发布的版本,版本之间可以进行对比、回滚。
DML语句 百度流式计算QUERY语句完全兼容SPARK/FLINK SQL查询语句,根据创建作业时指定的引擎类型来决定使用哪种引擎的查询语句。 INSERT INTO语句 语法 INSERT INTO tableName QUERY语句 同一个作业中,仅支持一个DML语句。 不支持单独的QUERY语句,需要在INSERT INTO内操作查询。
下面示例可以看出,TSDB 允许每个 datapoint 采用不同的格式,但在 BSC SQL 流式计算中,我们往往要求每个SQL语句中仅使用某一种格式。
百度流式计算 BSC 百度流式计算(BSC)包含8种监控对象类型,分别是:FLINK_STREAM:SQL、FLINK_STREAM:JAR、FLINK_BATCH:SQL、FLINK_BATCH:JAR、SPARK_STREAM:SQL、SPARK_STREAM:JAR、SPARK_BATCH:SQL、SPARK_BATCH:JAR,各个类型包含的监控指标列表如下: FLINK_STREAM:SQL
需求场景 所有机器的 API 调用日志通过 自定义日志采集程序 进行日志采集后推送到 百度消息服务 (KAFKA)中作为流式计算 source , 在我们 BSC 中创建 FLINK_STREAM/SQL 类型的作业用于 API 日志的聚合统计,并实时将聚合结果写到 时序时空数据库 (TSDB)当中,用户可以通过 TSDB 的可视化面板或者利用 数据可视化工具 (如 Sugar BI)等调用 TSDB
此时观察端上应用的资源消耗: 可以看出流式处理引擎 Kuiper 只消耗了极小的内存和CPU。 通过本文,读者可以基于 Baetyl 边缘计算框架快速集成 Kuiper 流式处理引擎,快速搭建边缘侧的流式解决方案,灵活地开发出基于边缘数据分析的系统,实现数据的低时延、低成本和安全的处理。
需求场景 所有的 CDN 日志通过 flume 直接推送到 百度消息服务 (KAFKA)中作为流式计算 source , 在我们 BSC 中创建 SPARK_STREAM/SQL 类型的作业用于 CDN 日志的提取中转,并实时将结果写到 百度消息服务 (KAFKA)或 对象存储 (BOS)当中,用户可以对 sink 端的 KAFKA / BOS 进行进一步的处理。
需求场景 所有的 CDN 接口调用日志通过 flume 直接推送到 百度消息服务 (KAFKA)中作为流式计算 source , 在我们 BSC 中创建 SPARK_STREAM/SQL 类型的作业用于 CDN 接口调用日志的聚合统计,并实时将聚合结果写到 百度数据仓库 (Palo)当中,用户可以利用 数据可视化工具(如 Sugar BI)等调用 Palo 的 API 完成数据展示。
RDS RDS DDL FLINK / SPARK CREATE TABLE rds_table ( ` field01 ` STRING , ` field02 ` BIGINT , ` field03 ` FLOAT , ` field04 ` BINARY , ` field05 ` INT , ` field06 ` TINYINT , ` field07 ` BOOLEAN , ` fi
BOS BOS DDL FLINK / SPARK CREATE TABLE bos_table ( ` field01 ` STRING , ` field02 ` BIGINT , ` field03 ` FLOAT , ` field04 ` BINARY , ` field05 ` INT , ` field06 ` TINYINT , ` field07 ` BOOLEAN , ` fi