元数据管理
元数据管理是构建数据湖十分重要的一环,通过有效集中式的元数据管理,有效提升数据资产价值。您可以使用该功能管理元数据库和元数据表。
元数据列表
支持查看用户有权限的元数据列表,对元数据进行主题、库、表级别的管理,支持库的新增和删除、表的新增和删除、及库表的权限管理。
对于系统管理员和数据管理员角色,该列表展示同步至平台的所有表,并且可以进行新建、编辑等管理操作。
对于其他角色,该列表仅展示用户有权限的表。
库管理
新建库
选中目的数据源,右侧展示当前数据源下的所有数据库,数据库信息详情:
字段名称 | 字段描述 |
---|---|
库名称 | 展示数据库名称 |
创建人 | 展示数据库的创建人 |
存储路径 | 展示数据库的存储路径信息 |
描述 | 展示数据库描述信息 |
操作 | 支持有权限的用户进行编辑、删除数据库。支持编辑数据库的名称、存储路径以及描述信息。 |
点击右侧更多按钮,点击新建库。
字段名称 | 字段描述 |
---|---|
库名称 | 填写数据库名称 |
存储路径 | 填写数据库的存储路径信息 |
描述 | 填写数据库描述信息 |
编辑库
支持编辑有权限的数据库。
字段名称 | 字段描述 |
---|---|
库名称 | 编辑数据库名称 |
存储路径 | 编辑数据库的存储路径信息 |
描述 | 编辑数据库描述信息 |
删除库
支持删除有权限的数据库,点击删除弹出二次确认弹框,点击确认删除数据库。
库详情
点击库名称,支持查看库详情,详情包含数据库下所有的数据表。
字段名称 | 字段描述 |
---|---|
表名称 | 展示表名称 |
类型 | 包括管理表、外部表、映射表三种类型,对应通过不同方式创建的表 |
创建人 | 展示创建人 |
创建时间 | 展示创建时间 |
描述 | 展示表描述 |
表管理
支持查看有权限的表的信息,提供快捷查看模型信息,点击【查看关联模型信息】可以跳转至当前表对应的数据模型页面,查看建模信息。
新建表
选中目的数据库,右侧展示当前数据库下的所有数据表,点击右侧更多按钮,点击新建表,进入新建表页面。
可视化建表
1.基本信息
字段名称 | 字段描述 |
---|---|
表名称 | 填写表名称,以英文开头, 支持英文、数字、下划线,不超过32个字符 |
类型 | 包括管理表、外部表、映射表三种类型: |
描述 | 填写表描述 |
2.存储参数
字段名称 | 字段描述 |
---|---|
存储路径 | 填写数据表的存储路径。点击【使用默认路径】,自动填充表名作为最后一级默认路径 |
数据湖格式 | 支持选择无湖格式、Hudi、Delta Lake、Iceberg类型创建表 |
数据存储格式 | 支持选择数据存储格式:TEXTFILE、ORC、PARQUET |
高级参数配置 | 支持填写高级参数配置,属于文件/查询引擎的参数,可以指定字段分隔符、字段换行符等,范围比较广,给开发人员使用 |
3.元数据定义
支持通过界面配置新增字段,字段名称和分区定义的字段名称不能重复。
DDL建表
用户可以通过点击DDL模式弹窗中的“生成表结构”按钮,并点击确定按钮,以生成新的表。
编辑表
支持编辑表信息,包括表名称、表描述、存储路径、高级参数,数据存储格式、添加字段。不支持修改表类型、数据湖格式、添加分区。
表详情
提供详细的数据表查看功能,展示表的元数据信息。
基本信息
字段名 | 字段说明 |
---|---|
表名称 | 展示表名称 |
创建时间 | 记录表的创建时间 |
类型 | 展示表的类型,包括物理表(管理表、外部表)、映射表 |
数据源地址 | 展示数据源地址 |
存储路径 | 展示存储路径 |
数据湖格式 | 展示已选择的数据湖格式 |
表存储大小 | 当前表中存储的所有数据大小 |
表文件总数 | 当前表中存储的所有文件数量总和 |
表行数 | 当前表中数据总行数 |
注:首次进入无数据,用户需根据界面提示执行特定语句后,返回页面查看统计数据。
分区表不能统计存储大小、文件总数、行数
湖格式的表(Iceberg、Hudi、Delta Lake)不能统计存储大小、文件总数、行数
字段信息
展示表的字段信息和分区信息,包括字段类型、关联标准、是否允许为空、密级配置、描述等信息。
版本管理
每次保存元数据信息新增一个版本。
字段名 | 字段说明 |
---|---|
版本名称 | 自动生成版本号,点击版本号支持查看版本详情 |
操作人 | 记录操作人名称 |
最后更新时间 | 记录表结构的最后更新时间 |
操作 | 支持对比上一版本,对比当前版本 |
脱敏规则
展示当前表已添加的脱敏规则,支持为字段添加脱敏规则。
点击“”,为当前表配置脱敏规则。
字段名 | 字段说明 |
---|---|
脱敏列 | 选择待脱敏的列,只支持选择密级在L0以上的列 |
脱敏列密级 | 回显已选择的脱敏列密级 |
脱敏规则 | 选择脱敏规则中已创建的脱敏规则,若未创建可点击“前往创建”新建。 |
脱敏后密级 | 配置字段的脱敏后密级,若脱敏列当前密级为L9,则脱敏后可选密级为“L8~L0” |
描述 | 填写描述信息,支持维护 |
数据湖格式 | 展示已选择的数据湖格式 |
数据血缘
在选择表后,以该表为中心,显示上下游血缘关系。
- 选择显示粒度
血缘图谱支持表级、字段级两种显示粒度,默认显示表级。
- 选择显示范围
默认直系父子,即上游1层、下游1层,如果没有上游或下游,则显示0层。
支持用户自定义上下游层级,可下拉选择:0层、1层、2层、3层。
在图谱中点击节点左侧的“+”、“-”可以展开或折叠上一层级,末端节点无展开/折叠按钮。
- 查看节点信息
点击节点右侧“更多”,选择“查看节点信息“,右侧显示节点信息:表名称、数据源类型、数据源链接、数据库、更新时间、schema信息。对于数据湖的表,点击“查看表详情”,可跳转到元数据详情页面。
- 查看任务信息
点击连线上的任务节点,右侧显示产生该血缘关系的任务信息,包括:来源任务名称、任务类型、创建人、创建时间、运行时间、任务内容等。点击“查看任务详情”可以跳转到具体作业。
- 切换中心节点
双击其他节点,或点击节点右侧“更多”,选择“设为中心表”,可以进行中心节点的切换。
6.显示粒度选择字段级,查看字段级血缘
分区信息
分区信息管理,提供快捷操作,支持用户对分区进行新增编辑、删除、检索。
新增分区
- 单击新增分区按钮,进入新建分区界面。填写配置项后单击确认分区创建成功。
- 分区字段类型,当前支持的分区字段类型有:
- TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,VARCHAR,CHAR,STRING,BYTES,DATE,TIMESTAMP,DECIMAL;
- 分区路径:默认路径生成规则:路径类型+数据库路径+表路径+分区路径。
路径说明:
路径 | 对应含义 |
---|---|
bos:// | 路径类型 |
/apps/spark/warehouse/icebergdb.db | 库路径 |
ddl | 表路径 |
id_bucket=4/category=asd/ | 分区路径 |
- 新增后的分区以列表形式展示,单击分区信息标签页可查看分区信息。支持选择分区名称精确搜索。
列表字段说明:
字段名称 | 字段描述 |
---|---|
分区字段名称 | 当前表创建的分区字段 |
分区创建时间 | 数据被存储到相应分区中的时间 |
分区路径 | 每个分区的路径。填写分区值后,自动生成分区路径。支持手动调整,分区路径必须是当前表路径下的子路径。 |
文件数 | 每个分区下的文件总数 |
分区行数 | 每个分区下的数据总行数 |
分区大小 | 每个分区文件的存储大小 |
操作 | 编辑:单击编辑按钮,可编辑分区值。只可编辑分区路径。 删除:单击删除按钮,删除分区。系统会再次确定是否要删除该分区信息,确认无误后单击确认可删除分区信息。 |