OLAP)场景,可提供海量数据的存储和分析,版本 BMR ClickHouse 1.0.0,ClickHouse版本为20.5.3.27 2020-04 上线计费变更功能,支持预付费与后付费集群互转 2020-03 上线配置变更功能,可以对一个正在运行的集群,对虚机的cpu和内存规格进行调整 2020-01 上线2.1.0镜像,新增kafka组件,spark版本升级到2.4.2 2019-12 新增
Kudu 1.什么是Kudu Kudu是一个用于结构化数据的开源存储引擎, 它支持低延迟的随机访问, 以及高效的分析存取模式. Kudu使用水平partition和副本技术来将数据分布式化, 每个partition的副本用Raft协议同步, 保证了低平均恢复时间和低长尾延迟.
Spark Spark简介 本文以分析Web日志统计每天的PV和UV为例,介绍如何在百度智能云平台使用Spark。 Spark是开源的大规模数据处理引擎。Spark的先进的DAG执行引擎支持周期性数据流和内存计算,在内存中的运算速度是MapReduce的100倍以上,在硬盘中的运算速度是MapReduce的10倍以上。
Druid Druid简介 Druid是一个高性能的实时数据分析系统,由MetaMarkets公司在2012开源,专门为OLAP场景而设计。Druid遵从Lambda架构,支持批量和实时两种方式导入数据,并提供高性能的数据查询。 集群准备 Druid模版 登录百度云控制台,选择“产品服务->百度MapReduce BMR”,点击“创建集群”,进入集群创建页。
当前,我们希望能够实现图书馆各方面数据的多维度分析,让我们在服务过程中,感知到用户对图书馆的实际需求,从而推出更具创新性的服务,推动北大图书馆的管理精细化、服务精准化。” 数据深度应用,实现精细化管理与精准化服务 北大图书馆通过数据盘点、数据质量规范等完成数据管理,通过数据集成、数仓构建,在打通数据链路后,利用百度智能云 Sugar BI平台实现了数据分析、展现和共享服务。
业务统计: 提供短信服务(SMS)的发送数据统计查询服务,支持查询国内及国际/港澳台短信30天的发送量统计数据,支持查询时间跨度最大为7天的单个手机号码的发送状态,查询国内发送失败分析,国际分国家/地区统计数据。 系统配置: 支持设置更改基础配置,如:回调地址、配额、频率控制。
说明 由于hive数据表的location为BOS,无法直接通过sqoop将RDS的数据导入hive,因为hive在加载数据时,会先将数据写入本地hdfs,然后将数据所在目录移动到hive表的location上。由于本地hdfs和BOS数据两个不同的文件系统,直接进行移动操作会抛出异常。因此,本场景需要“数据导入BOS”和“数据导入hive”两个步骤。
hive-table 数据导入的目的数据表的表名,即Hive中数据表的表名。 --hive-overwrite 覆盖Hive中与关系型数据库RDS同名的数据表。注意:如果将非INT类型转换为INT类型,导入数据可能不正确。 Sqoop导出数据 您可通过Sqoop把BOS或HDFS的数据导出至关系型数据库RDS中。
说明 通用型是CPU核数与内存比例为1:4的套餐,数据盘挂载的是CDS云磁盘,适用于大多数场景。 计算型是CPU核数与内存比例为1:2的套餐,数据盘挂载的是CDS云磁盘,适用于计算密集型场景。 内存型是CPU核数与内存比例为1:8的套餐,数据盘挂载的是CDS云磁盘,适用于计算结果需要缓存在内存中的业务场景。 本地SSD型的数据盘挂载的是本地SSD磁盘,适合频繁数据读写的场景。
Core节点:为计算及数据存储节点,部署 DataNode、NodeManager、RegionServer 等进程。并且HDFS 中的数据和计算过程中的中间结果日志数据全部存储于 Core 节点中;采用存算分离架构下的计算中间结果数据也会存放在core节点中;为了数据安全,暂不支持对core节点的缩容操作。