JSON 加载 JSON 在本节中,我们假设 JSON 数据为NDJSON(换行符分隔的JSON)格式,在ClickHouse中称为 JSONEachRow 。这是加载 JSON 的首选格式,因为它简洁且能有效利用空间,但其他格式也支持输入和输出。 考虑以下JSON示例,它表示来自Python PyPI 数据集的一行: { "date": "2022-11-15&qu
概述 Trino简介 Trino 是一个开源的分布式SQL查询引擎,专为执行大规模数据集上的查询而设计,尤其在数据存储与计算分离的场景下表现出色。旨在提供快速的SQL查询能力,支持数据湖、数据仓库等多种数据存储。 Trino的基本特性 高性能:分布式架构和内存内计算确保查询的快速执行。 扩展性:能够扩展到数百甚至数千台节点,处理PB级的数据量。 灵活性:支持多种数据源,包括关系型数据库、NoSQL
Ranger Ranger简介 Apache Ranger 提供集中式的权限管理框架,可以对Hadoop生态中的HDFS/Hive/YARN 等组件提供细粒度的权限访问控制,并且提供了Web UI页面方便管理员进行操作。 创建集群 BMR1.2.0及以上版本已支持 Ranger 组件集成,购置集群时勾选 Ranger 组件即可, 如下图所示: 访问集群的Ranger Web页面 通过SSH Tun
概述 BMR支持创建开启Kerberos认证的集群,在创建集群时打开安全模式开关。在这种高安全级别的集群中,所有开源组件均采用Kerberos安全模式启动,确保只有经过Kerberos认证的客户端能够访问集群提供的服务(例如HDFS)。 背景信息 集群开启Kerberos之后: 客户端:可以对可信任的客户端提供认证,使得可信任客户端能够正确提交作业,恶意用户无法伪装成其他用户侵入到集群当中,能够有
概述 本文档主要介绍BMR Java SDK的安装和使用。在使用本文档之前,您需要先了解BMR的一些基本知识,并已经开通了BMR服务。若您还不了解BMR,可以参考 产品描述 和 操作指南 。
Hive Hive简介 本文以分析Web日志统计用户访问次数最多的前5个小时段为例,介绍如何在百度智能云平台使用Hive。MapReduce提供了两种使用Hive的方式: 通过Hue使用Hive,请参考 Hue 。 控制台中提交Hive作业 。 Hive是基于Hadoop的数据仓库工具,提供海量数据的读取、写入、管理和分析,具有易扩展的存储能力和计算能力。不必开发专门的MapReduce应用便可通
Zeppelin Zeppelin简介 zeppelin 是一个交互式数据分析工具,可支持spark、sql等数据分析工具(详细介绍,请参考 zeppelin 官网 )。 本文将介绍如何在zeppelin上链接配置hiveserver2,来介绍zeppelin上sql的基本使用。 集群准备 准备百度智能云环境。 登录控制台( 百度智能云登录平台 ),选择“产品服务->MapReduce BMR”,
Pig Pig简介 本文以分析Web日志统计每天的PV和UV为例,介绍如何在百度智能云平台使用Pig。 Pig是基于Hadoop的大规模数据分析平台,把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig适用于大量的并行进程,因此可处理大规模数据集,而且Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口,便于写入和维护,可为实现不同的目的创建自己的进程。 Pig
Kudu 1.什么是Kudu Kudu是一个用于结构化数据的开源存储引擎, 它支持低延迟的随机访问, 以及高效的分析存取模式. Kudu使用水平partition和副本技术来将数据分布式化, 每个partition的副本用Raft协议同步, 保证了低平均恢复时间和低长尾延迟. Kudu围绕着Hadoop生态圈设计, 支持多种存取方式如Apache Impala, Apache Spark和MapR
Hue Hue简介 本文以网站日志分析来介绍可Web访问的Hue服务。开发者可以在Web界面中通过SQL语句就能分析海量日志,大大降低了使用门槛。 Hue为Hadoop数据分析提供了图形界面系统,仅使用浏览器便能够在Hadoop平台上导入数据、处理数据以及分析数据。 Hue 3.10.0使用 创建集群 准备数据,请参考 数据准备 。 准备百度智能云环境 。 登录控制台,选择“产品服务->MapRe