从数据仓库到数据湖:湖仓一体的发展与演变

作者:热心市民鹿先生2023.06.21 17:24浏览量:20

简介:你一定爱读的极简数据平台史,从数据仓库、数据湖到湖仓一体

你一定爱读的极简数据平台史,从数据仓库、数据湖到湖仓一体

随着大数据时代的到来,数据已经成为企业竞争的核心。如何有效地存储、管理和分析海量数据,成为了企业必须面对的问题。在这个背景下,数据仓库、数据湖和湖仓一体等数据平台应运而生。本文将带您了解这些数据平台的演变历程,并解释它们的含义和特点。

数据仓库

数据仓库是一种面向主题、集成、非易失性的数据集合,它为企业提供了单一的数据视图,支持决策制定。简单来说,数据仓库是存储企业所有数据的中心位置,方便进行分析和报告。数据仓库的发展经历了三个阶段:操作型数据库、数据 mart 和数据仓库。

操作型数据库是指存储日常交易数据的数据库,如银行交易、订单等。这些数据库通常用于支持企业的日常运营,而不是用于分析和报告。

数据 mart 是指根据特定业务领域和需求,从操作型数据库中提取和整合的数据集合,如销售数据、客户数据等。这些数据集通常用于支持特定的业务分析需求。

数据仓库则是整合企业所有数据的中心位置,包括操作型数据库和数据 mart 中的数据。它是一个集中的、标准化的数据存储位置,用于支持企业的决策制定和分析。

数据湖

数据湖是一种存储海量原始数据的场所,这些数据可以是结构化数据,也可以是非结构化数据,如文本、图像、音频、视频等。数据湖的优势在于可以存储任意规模的数据,并且可以以任意格式存储,无需进行提前的数据结构化处理。

与数据仓库不同,数据湖通常是一个分布式存储系统,可以存储 PB 级甚至更大量的数据。因此,数据湖通常用于存储大数据集,并支持对大数据集进行批处理和分析。在数据湖中,数据分析师可以使用各种工具和技术对数据进行处理和分析,如机器学习、图像处理、语音识别等。

湖仓一体

湖仓一体是一种将数据湖和数据仓库整合在一起的数据平台架构。它既支持存储和管理海量原始数据,又支持对数据进行高效的批处理和分析。湖仓一体的优势在于可以提供更全面、更准确的数据视图,支持更精细和更复杂的数据分析需求。