云数据库 RDS 云数据库 Redis 云数据库 DocDB for MongoDB 云数据库 HBase 云数据库 GaiaDB 分布式数据库 GaiaDB-X 数据传输服务 DTS 云数据库 TableStorage 消息服务 for RabbitMQ 云原生 云原生微服务应用平台 函数计算 CFC 容器实例BCI 容器镜像服务CCR 安全 DDoS防护服务 应用防火墙 WAF 主机安全 密钥管理服务
开发作业 使用hadoop镜像的集群可添加的作业类型是:java,streaming。使用spark镜像的集群可添加作业类型:spark,java,streaming。集群中添加了应用后便可添加该应用的作业,即创建集群时添加了hive应用,则可创建hive作业,添加了pig应用,则可创建pig作业。
第二步 建表并导入数据 关于如何登录RDS数据库,参考 文档 。 登录RDS后,选择一个数据库导入下载的sql文件,构建bmr_public_data_logs数据表,导入公共数据集。 步骤如下: 选中数据库sqoop; 点击导入; 选择下载的sql文件,注意如果是自己的sql文件,不能超过8M,超过8M可以先尝试压缩成zip文件,注意压缩文件结尾为.sql.zip。
示例: 若读取行’row1’的全部数据,请执行命令:hbase(main):001:0> get 'test', 'row1' 若读取行’row1’、列’family:col1’对应的数据,请执行命令:hbase(main):001:0> get 'test', 'row1', 'family:col1' 配置HBase 登录HBase的Master节点。
1:作业在BOS中的输入目录不存在或者输出目录已存在,导致reduce task无法读取或写入数据,从而造成作业失败。 解决方案:请确保BOS中输入目录存在且输出目录不存在。 2:作业本身存在错误。 解决方案:若您提交的是Custom JAR、Spark、Pig类型作业,有可能是您自定义的参数不符合规范。可查阅task日志,找出对应错误,对作业进行修复。 3:输入参数有问题。
Hue为Hadoop数据分析提供了图形界面系统,仅使用浏览器便能够在Hadoop平台上导入数据、处理数据以及分析数据。 Hue 3.10.0使用 创建集群 准备数据,请参考 数据准备 。 准备百度智能云环境 。
Ranger Ranger简介 Apache Ranger 提供集中式的权限管理框架,可以对Hadoop生态中的HDFS/Hive/YARN 等组件提供细粒度的权限访问控制,并且提供了Web UI页面方便管理员进行操作。
ClickHouse ClickHouse简介 ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。它是由俄罗斯搜索引擎公司Yandex开发,并于2016年6月发布的开源DBMS,与Hadoop,Spark相比,ClickHouse轻量很多。 创建集群 登录百度智能云控制台,选择“产品服务->百度MapReduce BMR”,点击“创建集群”,进入集群创建页。
在“集群配置”区,选择镜像版本BMR 1.0.0(hadoop 2.7),并选择模板“hadoop”。 其他设置可保持默认设置,点击“完成”即可。 点击已创建的集群模板,可查看模板详情如下: 创建定时任务 在“产品服务->MapReduce BMR”页,点击“定时任务”,进入定时任务列表页。 点击“创建定时任务”,在“任务参数”区输入任务名称,并选择已创建的集群模板“timedtask”。
Oozie与Hadoop技术栈的项目集成,支持多种类型的Hadoop作业(例如Java map-reduce,Streaming map-reduce,Pig,Hive,Sqoop和Distcp,Spark)以及系统特定的工作(例如Java程序和shell脚本)。 Oozie是一个可水平扩展,可靠和可使用扩展插件(scalable, reliable and extensible)的系统。