数据湖配置
所有文档
menu

百度数据湖管理与分析平台 EDAP

数据湖配置

概述

数据仓库vs数据湖

随着大数据、人工智能、云计算、物联网等数字化技术的普及和广泛应用, 移动互联网和物联网时代,产生了大量的网站数据,社交媒体数据,物联网设备数据等非结构化数据。数据仓库无法满足这些多元化的数据结构的存储和查询,以及非结构化和结构化数据的交叉分析。数据湖,可以容纳大量的原始数据的存储库和处理系统。

特性 数据仓库 数据湖
存储数据类型 历史的、结构化的、 预先定义数据模型 、一般来源 事务系统、运营数据、业务应用程序 所有类型数据, 结构化、非结构化、半结构化数据等,数据的类型遵循数据源系统的原始数据格式 , IOT设备、网站、移动程序、社交媒体和企业应用程序关系和非关系数据
数据处理方式 高度结构化的架构,数据清洗转换之后加载到数据仓库,即写时模式(Schema - On -Write ),用户从数据仓库获取的是处理后的数据。 数据直接加载到数据湖中,然后根据分析的需求处理数据。 即 读时模式( Schema -On Read),提供强大的计算能力处理和分析所有类型的数据,分析后的数据存储起来供用户使用。
成本 更快的查询结构,存储成本高 存储海量数据,采用分布式存储系统 、 对象存储系统 降低存储成本
数据分析应用 多维分析和可视化报表 跨源融合分析、 批&流出数据处理 、机器学习、预测分析、数据发现和分析

核心概念

  • 数据湖:EDAP支持选择EDAPDataLake作为数据湖底座,也支持选择BMR集群的Hive组件,当选择Hive时需要开启数据湖元数据配置。
  • 数据湖存储:进行数据湖存储的存储位置。EasyDAP支持的数据湖存储类型为:HDFS分布式文件系统、 BOS对象存储。
  • 元数据:EasyDAP基于数据湖存储建物理表、基于源连接各类型数据源建映射表, 对企业全域数据进行统一元数据管理。并基于元数据表,支持用户高效进行数据集成、批&流数据开发、多源交互式查询分析等数据处理和分析。
  • 数据库: 表的组织 ,库下可以有0个、1个或者多个表。库命名全局唯一。
  • 数据表: 元数据表,EasyDAP表类型包括物理表、映射表。

角色、职责和权限

角色 职责描述 功能权限
系统管理员 拥有EDAP最高权限 全部功能权限
数据管理人员 负责EDAP平台数据资源管理,拥有所有数据的最高权限,进行数据权限管理 · 创建数据湖存储路径
· 查看、管理所有数据湖存储路径
· 创建元数据库、表
· 查看、管理所有元数据库、表
普通用户 在权限范围内,创建数据库、表,进行数据开发分析 · 在权限范围进行存储路径操作
· 在权限范围内进行数据库、表操作

数据湖存储

创建存储路径

操作步骤

1.点击左侧导航栏“数据湖存储”,进入EDAP数据湖存储目录;

2.点击左上角的“新建”按钮, 在弹窗中选择所需要创建的存储路径的类型,并填写名称。

选中【HDFS】类型:填写存储路径名称,下拉选择集群名称,仅支持BMR集群,且状态为运行中。填写HDFS地址,填写存储路径描述(非必填)。完成后点击“确定”按钮,完成创建。

含义 输入规范 默认值
类型 存储类型 下拉选择,支持HDFS BOS
名称 所要新建的存储路径名称 仅支持中文、英文字母、数字、下划线、中划线,长度不超过32字符。名称具有唯一性 请输入
集群名称 存储路径所在的资源集群 下拉选择,仅支持选择BMR的资源集群,状态为运行中 请选择
HDFS地址 所要创建的具体文件系统地址 待确认 hdfs://
描述 存储路径的描述信息 支持输入中文、英文字母、数字、特殊字符等,长度不超过200字符 请输入

存储路径管理

操作步骤

  1. 编辑:在EDAP数据湖存储目录界面点击“编辑”,在弹窗中可重新选择认证类型,修改用户和密码以及描述。完成后点击“确认”按钮,保存编辑。
  2. 删除:

方法1:在EDAP数据湖存储目录界面点击“删除”,在弹窗中点击“确认”,完成删除操作。

方法2:在名称前面的勾选框中选中需要删除的存储路径,点击“删除”按钮,可完成单个或批量存储路径删除操作。

  1. 添加:

在EDAP数据湖存储界面点击“添加”,创建存储路径,选择类型为HDFS,填写相关参数,如下图所示。参数定义如表1所示。

表1

参数名称 含义 输入规范 默认值
类型 存储类型 下拉选择,支持BOS、HDFS BOS
名称 所要新建的存储路径名称 仅支持中文、英文字母、数字、下划线、中划线,长度不超过32字符;名称具有唯一性 --
集群名称 存储路径所在的资源集群 下拉选择,仅支持选择BMR的资源集群,状态为运行中 --
HDFS地址 所要创建的具体文件系统地址 hdfs://
描述 存储路径的描述信息 支持输入中文、英文字母、数字、特殊字符等,长度不超过200字符 --

元数据管理

创建库

操作步骤:

选择默认存储路径:

1.点击左侧导航栏“元数据管理”,进入EDAP元数据存储目录;

2.点击左上角“新建库”按钮,在弹窗中填写库名称,下拉单选框选择默认存储路径后,再在级连单选框中选择该类别对应的具体路径,填写描述(非必填),完成后点击“确认”按钮,完成新增操作。

备注:在数据库中建表时,表会创建在数据库的默认存储路径下。

创建表

EDAP提供可视化建表和DDL建表两种模式。

可视化模式

操作步骤:

1.点击左侧导航栏“元数据管理”,进入EDAP元数据存储目录,点击库名称列的蓝色字体,进入对应库的管理界面;

2.点击“新建表”按钮,进入新建界面;

配置项说明:

  配置项 配置项含义 支持范围
基本信息 表名称 数据表的名称 以英文开头,支持英文字母、数字、下划线,不超过128个字符
  表类型 数据表的类型支持三种:物理表-管理表、物理表-外部表、映射表  
存储参数 存储路径 指定数据湖存储路径,用于数据表数据存储 支持选择BOS和HDFS,默认存储路径为:库的默认存储路径/表名称
  数据湖格式 湖仓一体场景下,数据的组织格式 支持选择无、hudi
  数据存储格式 底层的数据存储格式 支持选择TEXTFILE、ORC、PARQUET
字段定义 字段名称 数据表字段的名称 只支持字母开头,支持字母、数字、下划线,不超过128个字符
  字段类型 字段的数据类型 支持TINY、SMALLINT、VARCHAR、CHAR、ARRAY、MAP、STRING、INT、BIGINT、DOUBLE、DECIMAL、FLOAT、BOOLEAN、BYTES、DATE、TIMESTAMP
  类型设置 字段类型选择DECIMAL时,配置数据长度和精度 (precision, scale)格式,p为数字总长度,范围为[1,38], s为小数点后位数,范围为[0,18],且s<p。
  关联标准 字段关联的数据标准  
  允许空 是否允许为空  
  密级 敏感数据等级 支持选择L0-L4(L0最低,L4最高),默认为L0
  描述 描述信息 支持中文、英文、数字、特殊字符等,不超过300个字符。
  1. 完成表单页面所有内容填写后,点击页面右下角“确认”按钮,完成表的新建。
  2. 点击操作栏中的“删除”,出现弹窗提示,点击右下角“确认”按钮,可删除表。

DDL模式

操作步骤:

  1. 点击左上角“DDL模式”按钮,在弹窗中输入SQL语句,可点击查看语法规范。

点击“生成表结构”按钮,完成DDL语句解析。

示例说明

  1. 创建一张物理表:表类型选择“物理表”,在级连选框中选择细分类型“管理表”或“外部表”。 在存储路径中选择类型并填写路径地址,可点击蓝色字体自动补齐默认路径。

选择数据存储格式,若选中“TEXTFILE”,则需另外填写分隔符。

hudi表类型 使用场景 使用说明
COW - Copy On Write 在只能overwrite的文件系统上实现update操作,写入性能慢,适用于批量写入的场景。
MOR - Merge On Read 原表 历史数据存放在base文件中,更新数据写入一个.log文件,写入速度非常快,适用于实时写入的场景。 可勾选自动创建读优化表和实时表
读优化表 - RO表 为提升查询性能,只读取base文件,可能不是最新数据。 表类型必须为外部表
实时表 - RT表 在读数据的时候,可以实时合并base文件和最新的.log文件,从而读取最新的数据。 表类型必须为外部表

数据湖格式为“hudi”,数据存储格式只支持“PARQUET”。

  1. 创建一张“映射表”:选择需要创建的映射表的数据源连接类型、数据源连接名称;

例如选择Doris后,填写数据库表名(可点击“补全字段”自动补齐)、分区字段、分区个数、分区下限。

元数据权限管理

数据开发人员申请权限:

1.点击左侧导航栏“元数据管理”,进入EDAP元数据存储目录,点击库名称列的蓝色字体,进入对应库的管理界面,在管理界面的右上角点击“申请权限”按钮;

2.在弹窗中选中申请的权限内容和有效期,点击“确认”按钮,完成权限申请,等待管理员审核。

数据管理员授予权限:

详情参见“数据分析场景 - 数据权限管理”章节。

元数据版本管理

操作步骤

1.点击左侧导航栏“元数据管理”,进入EDAP元数据存储目录,点击库中的表名称,进入对应库的表详情界面;点击“版本管理”,进入元数据版本管理列表页;

2.可选择更新时间,查询特定时间区间内的版本更新列表;

3.在版本列表中点击“操作”下的蓝字,可将当前版本与历史版本进行对比,修改内容以橙色高亮显示。

上一篇
多用户访问控制
下一篇
文件管理