数据仓储

数据仓储(Data Warehousing)是企业为了分析数据进而获取洞察力的努力,是商务智能的主要环节。在大数据时代,百度云提供了云端的数据仓储解决方案,为企业搭建现代数据仓库提供指南。

概述

数据仓库为企业提供了分析和报表功能,是商务智能的中流砥柱。不过,随着大数据时代的来临,网站日志、用户行为数据、社交媒体、传感器等等在云端产生了海量非结构化数据,为了分析海量数据,与云端数据交互获取更强的竞争力,给传统数据仓库带来了巨大挑战。

伴随着Hadoop/Spark大数据平台的成熟,越来越多的企业开始采用Hadoop/Spark作为企业数据中心来弥补传统数据仓库,对弱结构化或者非结构化数据进行分析,或者作为ETL功能为数据仓库提供结构化数据。

为了帮助企业在大数据时代更好地获得竞争优势,百度云提供了云端的数据仓储解决方案,介绍如何在数据仓库和Hadoop/Spark大数据平台中选型,以及如何运用云计算带来的收益,为企业搭建现代数据仓库平台提供指南。

背景

数据分析是通过收集原始数据、处理后得到有用信息、然后进行分析以获取洞察力的一个过程,最终目的是辅助决策。数据分析的例子有很多,比如网站通过分析用户的行为数据来了解客户的倾向以推荐产品、供电局通过分析电表的数据来提高能源效率等。

为了更好地支持数据分析,数据技术慢慢演化成面向日常事务处理的OLTP和针对统计分析决策的OLAP。

MPP架构的数据仓库是典型的OLAP应用,通过ETL过程把数据仓储在统一的平台,并提供交互式查询帮助企业做出决策,是商务智能(Business Intelligence)的中流砥柱。

随着Hadoop和Spark技术的崛起,普通技术人员都能够通过廉价硬件组建集群,存放大量原始数据并通过大规模并行框架处理数据,并且在上层慢慢演化出Hive、Spark SQL这样的OLAP功能,也能完成数据仓储的任务。

那么问题来了:

数据仓库和Hadoop/Spark大数据平台如何选择?

云端的数据仓库服务和Hadoop/Spark托管服务有什么好处?

方案

现代数据仓库

关系数据仓库托管服务PaloHadoop/Spark托管服务BMR的有机组合才是数据仓储最佳解决方案:

在线报表
数字面板
大数据平台BMR
关系数据仓库
Palo
Spark
MapReduce
Kafka
Hive
Pig
Mahout
Zeppelin
Hue
HBase
传感器
舆情
声音
日志
图片
视频
视频
ERP
CRM
HR
最佳解决方案 大数据平台BMR 关系数据仓库 Palo

其中:

结构化、弱结构化、非结构化存储的原始数据可以复制到BMR集群中。

结构化数据通过ETL载入Palo中。

通过Hive或者Spark SQL交互式查询BMR中的数据,用来做原型测试或者即席查询。这些组件支持运行时定义表模式(Schema on Read),方便处理弱结构化数据。非结构化数据可以通过MapReduce或Spark加工成结构化数据。

变形完成的结构化数据载入Palo,作为企业唯一真实版本(Single Version of the Truth),帮助企业部门之间协作。

通过SQL与Palo通讯,使用BI工具进行即席查询或者交互式分析,或者产生数字面板提供自动报表,以获取洞察力。

大数据时代的数据仓储,应该能够同时处理关系型数据和非关系型数据,小数据与大数据,一个都不能少,而BMR和Palo正是百度云大数据平台给出的答案。

传统的数据仓库或者Hadoop集群建设,需要经过采购硬件、部署软件、开发运维等步骤,周期冗长,而且无法随着业务动态伸缩。相比之下,BMR和Palo都是云端的全托管服务,用户在几分钟内便可以创建集群,而无须考虑运维,节省IT人员的成本。同时,托管服务都支持动态伸缩集群,可根据业务大小调节集群,按使用量付费。总之,IT支出下降,凸显云端托管服务的优势。

无缝集成BI工具

秉承开源开放的原则,BMR、Palo可以轻松与业界著名的BI工具的无缝集成,使得自助式分析与报表变得异常简单。

数据服务

百度云对数据仓储提供了完整的收集、存储、仓储、应用四个步骤的服务:

收集:方便快捷地把各种类型的数据收集到云端。除了公网上传数据,海量数据可以使用硬盘快递服务,此外还有日志服务和物联网IoT服务可以选择。

存储:把不同类型的数据存储到相应的服务以便进一步处理。比如对象存储BOS是支持HDFS接口的文件存储服务;MolaDB是键值NoSQL数据库服务;RDS支持MySQL和SQL Server的关系型数据库服务。

仓储:把数据清理、变形、优化以后存储关系型数据仓库Palo,或者以更直接形式放在以Hadoop/Spark为平台的数据湖上,以便高效地进行数据分析。

应用:使用商务智能工具如Qlik、Tableau等与BMR或者Palo交互,交互式查询、产生报表、或者生成数字面板供企业内分享。

参考架构如下:

报表
数字面板
大数据平台BMR
关系数据仓库
Palo
Spark
MapReduce
Kafka
Hive
Pig
Mahout
Zeppelin
Hue
HBase
对象存储BOS
键值数据库MolaDB
关系数据库RDS
硬盘快递
日志服务
网络传输
物联网服务IOT
百度Kafka
参考架构 对象存储BOS 键值数据库MolaDB 关系数据库RDS 日志服务 物联网服务IOT 百度Kafka 大数据平台BMR 关系数据仓库 Palo

选择我们

我们提供业界领先的数据仓储解决方案:

依托百度技术:百度搜索收录全世界超过万亿网页、承载中国网民每天几十亿次的请求,大数据技术支撑20多个用户过亿产品以及百万企业客户。2013年百度建成全球最大Hadoop集群,2014年百度大数据处理能力BaiduSort获得国际排序大赛冠军。

全托管云服务:托管服务让用户聚焦业务而不是修复缺陷和运营,而按需购买、快速发布、弹性扩容、高可用等特性帮助企业大大降低IT成本。此外,大数据产品在百度内部外部久经考验,适合企业在生产环境部署。

开源开放:百度云提供增强的开源产品托管服务(如BMR)或者接口完全兼容产品(如Palo),方便互联网公司和传统企业平滑

点击百度MapReduce以及百度数据仓库Palo开始使用。