产品简介

概述

百度MapReduce(BMR)是全托管的Hadoop/Spark集群,您可以按需部署并弹性扩展集群,只需专注于大数据处理、分析、报告,拥有多年大规模分布式计算技术积累的百度运维团队全权负责集群运维。

百度MapReduce支持完整的Hadoop生态:

  • Hadoop:提供可靠存储HDFS以及MapReduce编程范式以便大规模并行处理数据。
  • Spark:提供基于分布式内存的大规模并行处理框架,从而大大提高大数据分析性能。Spark提供了SQL查询接口、流数据处理以及机器学习。
  • HBase:大规模分布式NoSQL数据库,提供随机存取大量的非结构化和半结构化的海量数据。

与自己搭建Hadoop集群相比,百度MapReduce有以下优势:

  • 方便:几分钟便可创建集群,无需为节点分配、部署、优化投入时间。
  • 弹性:创建任意大小的集群并动态调整集群规模,高峰期加大集群规模以提高计算能力,低峰期可对应缩减集群规模降低花费。
  • 开放:完全兼容开源Hadoop/Spark社区,零成本业务迁移。
  • 实惠:支持按需付费以及包年包月,计价简单而透明。
  • 安全:专属私有网络,独占系统环境,确保数据安全。

百度MapReduce组件

  • MapReduce:用于大规模数据集的分布式并行计算的编程模型,极大地方便了开发者在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。
  • Spark:开源的集群计算框架。Spark通过拓展内存计算可在海量数据的迭代式计算和交互式计算中提供远快于Hadoop的运算速度。同时,Spark支持SQL请求、流数据处理、机器学习和图表处理,提高开发者效率。
  • HBase:开源的、非关系型、分布式的列式数据库,为Hadoop提供NoSQL功能。
  • Hive:允许使用类似于SQL语法进行数据查询,适合数据仓库的分析任务。
  • Pig:是一种过程语言,可加载数据、表达转换数据以及存储最终结果,使得日志等半结构化数据变得有意义。
  • Hue:为了方便管理Hadoop集群以及执行Hive或者Pig脚本而提供的一系列网页应用。
  • Sqoop:用于Hadoop与传统的数据库间的数据导入和导出。
  • Kafka:开源的、高吞吐量的分布式消息队列系统,支持Hadoop并行数据加载。
  • Zeppelin:Web版的notebook,用于数据分析和可视化,可无缝对接Hive、SparkSQL等。