基础使用 Spark SQL 基础操作 Spark SQL允许用户直接运用SQL语句对数据进行操作,在此过程中,Spark会负责对SQL语句进行解析、优化以及执行。 以下示例展示了如何使用Spark SQL进行读取文件。示例如下: 示例1:Spark支持多种数据格式,本示例读取了JSON格式文件的数据,并输出为Parquet格式。 val peopleDF = spark.read.json(&q
ranger概述 Apache Ranger 提供集中式的权限管理框架,可以对Hadoop生态中的HDFS/HIVE/YARN 等组件提供细粒度的权限访问控制,并且提供了Web UI页面方便管理员进行操作。 Ranger简介 Apache Ranger 是一个为大数据平台提供集中化安全管理的开源框架,专门用于确保 Hadoop 生态系统中的数据安全。以下是 Ranger 的主要组件及其作用。 Ra
计费项 本文介绍MapReduce的计费项及计费规则。详情请查看 BMR价格计算器 。 计费项 计费项 计费方式 计费规则 存储空间 包年包月 按需计费 费用=单价×存储量×使用时长。 可选机型 包年包月 按需计费 费用=单价×节点个数×使用时长。 集群创建成功后,开始计费。您可以在集群创建过程中提交作业,或者在集群创建成功后及时提交作业。
Spark示例 前提条件 已完成创建 BMR 集群,并且配置了 Paimon、Spark 组件,详情请参见创建集群。 注意事项 Paimon 的 JAR 文件已存放到 ${SPARK_HOME}/jars 目录; 默认使用 Hive Catalog; Hive 用户可以直接使用 Spark 创建的表; 启动 Spark 不需要添加 Paimon 相关参数。 操作示例 SSH登录集群,参考 SSH连
访问模式 通过BLB访问ClickHouse集群 前提条件 用户已创建BMR Clickhouse集群。 操作步骤 具体配置流程如下,参考 https://cloud.baidu.com/doc/BLB/s/cjwvxnr91 创建BLB实例,可根据业务负载购买对应类型和规格的BLB实例 配置clickhouse实例 添加监听端口号 通过JDBC访问ClickHouse集群 获取主机的 IP 地址
定时任务 注:自2024年6月30日起,MapReduce暂不提供作业相关功能支持,可通过第三方平台EasyDAP或开源组件Airflow提交任务。 简介 通过定时任务您可定时启动集群运行作业。需预先规划时间策略,并依据时间策略存储输入数据,再创建定时任务,并可对已创建的定时任务修改时间策略。 规划准备 请预先规划时间策略,即自动启动集群运行作业的时间。本文以自2015年12月11日19点55分至
Hadoop-Streaming Hadoop Streaming简介 本文以分析Web日志统计每日请求量为例,介绍如何在百度智能云平台使用Hadoop Streaming。 在BMR集群中,您可以使用python、shell、C++等任何您熟悉的编程语言开发Hadoop Streaming作业。Hadoop Streaming是Hadoop提供的编程工具,允许用户使用任何可执行文件或者脚本文件作
创建表 本地表 创建本地表 CREATE TABLE `check_local` ( `Id` UInt16, `Name` String, `CreateDate` Date) ENGINE = MergeTree() PARTITION BY CreateDate ORDER BY Id; 本地表插入数据 insert into check_local (Id, Name, CreateDat
Flink示例 前提条件 已完成创建 BMR 集群,并且配置了 Paimon、Flink 组件,详情请参见创建集群。 注意事项 BMR Flink 不使用 Hive Metastore 元数据,可以使用文件系统存储元数据,可通过 Hive 和 Spark 操作. 操作示例 SSH登录集群,参考 SSH连接到集群 ; 参考以下命令,启动 /opt/bmr/flink/bin/yarn-session
续费说明 续费方式 MapReduce目前支持自动续费和手动续费。使用预付费方式购买的包年包月集群,在集群状态为“运行中”或“已停服”时可续费。 表一 续费说明 续费类型 续费说明 自动续费 在 产品服务>MapReduce>集群列表 页,单击 自动续费 按钮进入续费管理。 手动续费 1.在 产品服务>MapReduce>集群列表 页,单击需续费集群对应的 续费 按钮,进入该集群的续费页。 2.选