概述 Trino简介 Trino 是一个开源的分布式SQL查询引擎,专为执行大规模数据集上的查询而设计,尤其在数据存储与计算分离的场景下表现出色。旨在提供快速的SQL查询能力,支持数据湖、数据仓库等多种数据存储。 Trino的基本特性 高性能:分布式架构和内存内计算确保查询的快速执行。 扩展性:能够扩展到数百甚至数千台
Pig Pig简介 本文以分析Web日志统计每天的PV和UV为例,介绍如何在百度智能云平台使用Pig。 Pig是基于Hadoop的大规模数据分析平台,把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig适用于大量的并行进程,因此可处理大规模数据集,而且Pig为复杂的海量数据并行计算提供了一个
Zeppelin Zeppelin简介 zeppelin 是一个交互式数据分析工具,可支持spark、sql等数据分析工具(详细介绍,请参考 zeppelin 官网 )。 本文将介绍如何在zeppelin上链接配置hiveserver2,来介绍zeppelin上sql的基本使用。 集群准备 准备百度智能云环境。 登录控
Impala Impala简介 Impala是Cloudera公司主导开发的MPP架构的查询系统,它提供SQL语义,能够快速的查询存储在HDFS、HBASE中的数据。此外Impala使用与Hive相同的元数据、SQL语法、ODBC驱动。 创建集群 登录百度云控制台,选择“产品服务->MapReduce BMR”,点击“
Ooize 什么是Ooize Oozie是一个用于管理Apache Hadoop作业的工作流调度程序系统。 Oozie Workflow job是由多个Action组成的有向无环图(DAG)。 Oozie Coordinator job是根据时间(频率)和数据可用性触发的可重复执行的Oozie Workflow job
Hue Hue简介 本文以网站日志分析来介绍可Web访问的Hue服务。开发者可以在Web界面中通过SQL语句就能分析海量日志,大大降低了使用门槛。 Hue为Hadoop数据分析提供了图形界面系统,仅使用浏览器便能够在Hadoop平台上导入数据、处理数据以及分析数据。 Hue 3.10.0使用 创建集群 准备数据,请参考
日志 概述 BMR Java SDK发布版本中增加了logback作为slf4j的实现,如果用户没有自己的实现可以直接用,如果工程中有其他的如log4j则可以替代。 默认日志 如果用户使用默认的logback,则需要配置logback.xml到classpath中。如果没有这个配置文件,日志级别默认为DEBUG。 XM
JSON 加载 JSON 在本节中,我们假设 JSON 数据为NDJSON(换行符分隔的JSON)格式,在ClickHouse中称为 JSONEachRow 。这是加载 JSON 的首选格式,因为它简洁且能有效利用空间,但其他格式也支持输入和输出。 考虑以下JSON示例,它表示来自Python PyPI 数据集的一行:
Kudu 1.什么是Kudu Kudu是一个用于结构化数据的开源存储引擎, 它支持低延迟的随机访问, 以及高效的分析存取模式. Kudu使用水平partition和副本技术来将数据分布式化, 每个partition的副本用Raft协议同步, 保证了低平均恢复时间和低长尾延迟. Kudu围绕着Hadoop生态圈设计, 支
Presto Presto简介 Presto是一个分布式SQL查询引擎,用于查询分布在一个或多个不同数据源中的大数据集。Presto通过使用分布式查询,可以快速高效的完成海量数据的查询,并提供了Web UI页面方便用户查看任务查询详情与服务运行状态。 创建集群 登录百度云控制台,选择“产品服务->MapReduce B