核心概念
更新时间:2024-09-13
数据仓库 VS 数据湖
随着大数据、人工智能、云计算、物联网等数字化技术的普及和广泛应用, 移动互联网和物联网时代,产生了大量的网站数据,社交媒体数据,物联网设备数据等非结构化数据。数据仓库无法满足这些多元化的数据结构的存储和查询,以及非结构化和结构化数据的交叉分析。数据湖,可以容纳大量的原始数据的存储库和处理系统。
特性 | 数据仓库 | 数据湖 |
---|---|---|
存储数据类型 | 历史的、结构化的、 预先定义数据模型 、一般来源 事务系统、运营数据、业务应用程序 | 所有类型数据, 结构化、非结构化、半结构化数据等,数据的类型遵循数据源系统的原始数据格式 , IOT设备、网站、移动程序、社交媒体和企业应用程序关系和非关系数据 |
数据处理方式 | 高度结构化的架构,数据清洗转换之后加载到数据仓库,即写时模式(Schema - On -Write ),用户从数据仓库获取的是处理后的数据。 | 数据直接加载到数据湖中,然后根据分析的需求处理数据。 即 读时模式( Schema -On Read),提供强大的计算能力处理和分析所有类型的数据,分析后的数据存储起来供用户使用。 |
成本 | 更快的查询结构,存储成本高 | 存储海量数据,采用分布式存储系统 、 对象存储系统 降低存储成本 |
数据分析应用 | 多维分析和可视化报表 | 跨源融合分析、 批&流出数据处理 、机器学习、预测分析、数据发现和分析 |
数据管理
元数据是对数据的描述,采集企业环境中的各类元数据并统一存储,通过分析元数据,根据业务维度、系统维度等不同维度对数据分类,并梳理出数据和数据之间的关系,将能从多种视角360°展示出企业的数据资产视图,让企业不同的员工都能方便地看到自己关心的数据。EDAP的元数据管理通过主题、库、表 三级以实现数据的高效组织和管理。
- 数据湖:数据湖是按原始数据格式存储,任何数据可以以最原始的形态储存,可是结构化或者非结构化数据,以确保数据在使用时可以不丢失任何细节,所有的实时数据和批量数据,都汇总到数据湖当中,然后从湖中获取相关数据用于数据分析或者机器学习。
- (数据湖)存储路径:进行数据湖存储的存储位置。基于常见数据资产类型,EasyDAP支持的数据湖存储类型为:HDFS分布式文件系统、 BOS对象存储。
- 源链接:企业数据源系统的链接信息。基于企业场景的数据源系统,EasyDAP目前已支持管理 MYSQL 、ORACLE、SQLSERVER等DB类,PALO、GP等MPP类,HBASE 等NOSQL类型的数据源系统。
- 元数据,EasyDAP基于数据湖存储建物理表、基于源连接各类型数据源建映射表, 对企业全域数据进行统一元数据管理。并基于元数据表,支持用户高效进行数据集成、批&流数据开发、多源交互式查询分析等数据处理和分析。
- 主题: 较高层次上将企业的数据进行综合、归类。主题下可以有0个、1个或者多个库。
- 库: 表的组织 ,库下可以有0个、1个或者多个表。库命名全局唯一。
- 表: 元数据表。EasyDAP 包括 物理表、映射表。
- 物理表:物理表指数据存储于接入EasyDAP的数据湖存储系统中(主要是BOS、HDFS ,针对HIVE数仓,可以接入HIVE的HDFS存储路径作为数据湖存储 ),存储的路径由EasyDAP进行管理。EasyDAP管理物理表的读、写操作,当表被删除时,数据也会被一同删除。
- 映射表:针对企业的各类数据源系统,如MYSQL,ORACLE,SQLSERVR,HBASE、PALO、GP等,EasyDAP针对各类数据源系统通过建外表的形式建立元数据表,在EasyDAP实现元数据的统一管理,并支持数据的读取,支持多源联合查询分析。
数据开发
- 作业:一个数据流处理pipeline。
- 作业实例:一个作业的一次执行生成一个作业实例。
- 作业组: 一个或多个pipeline作业以及用户自定义程序包编排形成作业组。
- 作业组实例:一个作业组的一次执行生成一个作业组实例。
- 作业编排:作业编排将作业形成一个有向无环图,按照图的顺序依次调用。