数据湖配置
概述
数据仓库vs数据湖
随着大数据、人工智能、云计算、物联网等数字化技术的普及和广泛应用, 移动互联网和物联网时代,产生了大量的网站数据,社交媒体数据,物联网设备数据等非结构化数据。数据仓库无法满足这些多元化的数据结构的存储和查询,以及非结构化和结构化数据的交叉分析。数据湖,可以容纳大量的原始数据的存储库和处理系统。
特性 | 数据仓库 | 数据湖 |
---|---|---|
存储数据类型 | 历史的、结构化的、 预先定义数据模型 、一般来源 事务系统、运营数据、业务应用程序 | 所有类型数据, 结构化、非结构化、半结构化数据等,数据的类型遵循数据源系统的原始数据格式 , IOT设备、网站、移动程序、社交媒体和企业应用程序关系和非关系数据 |
数据处理方式 | 高度结构化的架构,数据清洗转换之后加载到数据仓库,即写时模式(Schema - On -Write ),用户从数据仓库获取的是处理后的数据。 | 数据直接加载到数据湖中,然后根据分析的需求处理数据。 即 读时模式( Schema -On Read),提供强大的计算能力处理和分析所有类型的数据,分析后的数据存储起来供用户使用。 |
成本 | 更快的查询结构,存储成本高 | 存储海量数据,采用分布式存储系统 、 对象存储系统 降低存储成本 |
数据分析应用 | 多维分析和可视化报表 | 跨源融合分析、 批&流出数据处理 、机器学习、预测分析、数据发现和分析 |
核心概念
- 数据湖:EDAP支持选择EDAPDataLake作为数据湖底座,也支持选择BMR集群的Hive组件,当选择Hive时需要开启数据湖元数据配置。
- 数据湖存储:进行数据湖存储的存储位置。EasyDAP支持的数据湖存储类型为:HDFS分布式文件系统、 BOS对象存储。
- 元数据:EasyDAP基于数据湖存储建物理表、基于源连接各类型数据源建映射表, 对企业全域数据进行统一元数据管理。并基于元数据表,支持用户高效进行数据集成、批&流数据开发、多源交互式查询分析等数据处理和分析。
- 数据库: 表的组织 ,库下可以有0个、1个或者多个表。库命名全局唯一。
- 数据表: 元数据表,EasyDAP表类型包括物理表、映射表。
角色、职责和权限
角色 | 职责描述 | 功能权限 |
---|---|---|
系统管理员 | 拥有EDAP最高权限。 | 全部功能权限 |
数据管理人员 | 负责EDAP平台数据资源管理,拥有所有数据的最高权限,进行数据权限管理。 | · 创建数据湖存储路径 · 查看、管理所有数据湖存储路径 ·创建元数据库、表 ·查看、管理所有元数据库、表 |
普通用户 | 在权限范围内,创建数据库、表,进行数据开发分析。 | ·在权限范围进行存储路径操作 ·在权限范围内进行数据库、表操作 |
数据湖存储
创建存储路径
操作步骤
1.点击左侧导航栏“数据湖存储”,进入EDAP数据湖存储目录;
2.点击左上角的“新建”按钮, 在弹窗中选择所需要创建的存储路径的类型,并填写名称。 若选中【BOS】类型:在下拉单选框中选择BOS地址及具体描述(非必填),完成后点击“确认”按钮,完成创建。
备注:需要开通BOS产品。
若选中【HDFS】类型:填写存储路径名称,下拉选择集群名称,仅支持BMR集群,且状态为运行中。填写HDFS地址,填写存储路径描述(非必填)。完成后点击“确定”按钮,完成创建。
含义 | 输入规范 | 默认值 | |
---|---|---|---|
类型 | 存储类型 | 下拉选择,支持BOS、HDFS | BOS |
名称 | 所要新建的存储路径名称 | 仅支持中文、英文字母、数字、下划线、中划线,长度不超过32字符。名称具有唯一性 | 请输入 |
集群名称 | 存储路径所在的资源集群 | 下拉选择,仅支持选择BMR的资源集群,状态为运行中 | 请选择 |
HDFS地址 | 所要创建的具体文件系统地址 | 待确认 | hdfs:// |
描述 | 存储路径的描述信息 | 支持输入中文、英文字母、数字、特殊字符等,长度不超过200字符 | 请输入 |
存储路径管理
操作步骤
- 编辑:在EDAP数据湖存储目录界面点击“编辑”,在弹窗中可重新选择认证类型,修改用户和密码以及描述。完成后点击“确认”按钮,保存编辑。
- 删除:
方法1:在EDAP数据湖存储目录界面点击“删除”,在弹窗中点击“确认”,完成删除操作。
方法2:在名称前面的勾选框中选中需要删除的存储路径,点击“删除”按钮,可完成单个或批量存储路径删除操作。
- 添加:
在EDAP数据湖存储界面点击“添加”,创建存储路径,选择类型为HDFS,填写相关参数,如下图所示。参数定义如表1所示。
表1
参数名称 | 含义 | 输入规范 | 默认值 |
---|---|---|---|
类型 | 存储类型 | 下拉选择,支持BOS、HDFS | BOS |
名称 | 所要新建的存储路径名称 | 仅支持中文、英文字母、数字、下划线、中划线,长度不超过32字符;名称具有唯一性 | -- |
集群名称 | 存储路径所在的资源集群 | 下拉选择,仅支持选择BMR的资源集群,状态为运行中 | -- |
HDFS地址 | 所要创建的具体文件系统地址 | hdfs:// | |
描述 | 存储路径的描述信息 | 支持输入中文、英文字母、数字、特殊字符等,长度不超过200字符 | -- |
元数据管理
创建库
操作步骤:
选择默认存储路径:
1.点击左侧导航栏“元数据管理”,进入EDAP元数据存储目录;
2.点击左上角“新建库”按钮,在弹窗中填写库名称,下拉单选框选择默认存储路径后,再在级连单选框中选择该类别对应的具体路径,填写描述(非必填),完成后点击“确认”按钮,完成新增操作。
备注:在数据库中建表时,表会创建在数据库的默认存储路径下。
创建表
EDAP提供可视化建表和DDL建表两种模式。
可视化模式
操作步骤:
1.点击左侧导航栏“元数据管理”,进入EDAP元数据存储目录,点击库名称列的蓝色字体,进入对应库的管理界面;
2.点击“新建表”按钮,进入新建界面;
配置项说明:
配置项 | 配置项含义 | 支持范围 | |
---|---|---|---|
基本信息 | 表名称 | 数据表的名称 | 以英文开头,支持英文字母、数字、下划线,不超过128个字符 |
表类型 | 数据表的类型支持三种:物理表-管理表、物理表-外部表、映射表 | ||
存储参数 | 存储路径 | 指定数据湖存储路径,用于数据表数据存储 | 支持选择BOS和HDFS,默认存储路径为:库的默认存储路径/表名称 |
数据湖格式 | 湖仓一体场景下,数据的组织格式 | 支持选择无、hudi | |
数据存储格式 | 底层的数据存储格式 | 支持选择TEXTFILE、ORC、PARQUET | |
字段定义 | 字段名称 | 数据表字段的名称 | 只支持字母开头,支持字母、数字、下划线,不超过128个字符 |
字段类型 | 字段的数据类型 | 支持TINY、SMALLINT、VARCHAR、CHAR、ARRAY、MAP、STRING、INT、BIGINT、DOUBLE、DECIMAL、FLOAT、BOOLEAN、BYTES、DATE、TIMESTAMP | |
类型设置 | 字段类型选择DECIMAL时,配置数据长度和精度 | (precision, scale)格式,p为数字总长度,范围为[1,38], s为小数点后位数,范围为[0,18],且s<p。 | |
关联标准 | 字段关联的数据标准 | ||
允许空 | 是否允许为空 | ||
密级 | 敏感数据等级 | 支持选择L0-L4(L0最低,L4最高),默认为L0 | |
描述 | 描述信息 | 支持中文、英文、数字、特殊字符等,不超过300个字符。 |
- 完成表单页面所有内容填写后,点击页面右下角“确认”按钮,完成表的新建。
DDL模式
操作步骤:
- 点击左上角“DDL模式”按钮,在弹窗中输入SQL语句,可点击查看语法规范。
点击“生成表结构”按钮,完成DDL语句解析。
示例说明
- 创建一张物理表:表类型选择“物理表”,在级连选框中选择细分类型“管理表”或“外部表”。 在存储路径中选择类型并填写路径地址,可点击蓝色字体自动补齐默认路径。
选择数据存储格式,若选中“TEXTFILE”,则需另外填写分隔符。
hudi表类型 | 使用场景 | 使用说明 | |
---|---|---|---|
COW - Copy On Write | 在只能overwrite的文件系统上实现update操作,写入性能慢,适用于批量写入的场景。 | ||
MOR - Merge On Read | 原表 | 历史数据存放在base文件中,更新数据写入一个.log文件,写入速度非常快,适用于实时写入的场景。 | 可勾选自动创建读优化表和实时表 |
读优化表 - RO表 | 为提升查询性能,只读取base文件,可能不是最新数据。 | 表类型必须为外部表 | |
实时表 - RT表 | 在读数据的时候,可以实时合并base文件和最新的.log文件,从而读取最新的数据。 | 表类型必须为外部表 |
数据湖格式为“hudi”,数据存储格式只支持“PARQUET”。
- 创建一张“映射表”:选择需要创建的映射表的数据源连接类型、数据源连接名称;
例如选择Doris后,填写数据库表名(可点击“补全字段”自动补齐)、分区字段、分区个数、分区下限。
元数据权限管理
数据开发人员申请权限:
1.点击左侧导航栏“元数据管理”,进入EDAP元数据存储目录,点击库名称列的蓝色字体,进入对应库的管理界面,在管理界面的右上角点击“申请权限”按钮;
2.在弹窗中选中申请的权限内容和有效期,点击“确认”按钮,完成权限申请,等待管理员审核。
数据管理员授予权限:
详情参见“数据分析场景 - 数据权限管理”章节。