数据表
创建数据表
- 在元数据菜单,选择目标的数据目录,在数据模式下详情界面,单击立即创建 > 创建数据表,进入配置界面。
- 填写创建数据表配置项,完成后确定。
基础信息
| 配置项名称 | 说明 |
|---|---|
| 数据源格式 | 支持Iceberg和Lance两种格式。 |
| 数据表名称 | 输入数据表名称,支持英文、数字、下划线,必须以字母开头,长度为1~128个字符。 |
| 数据表类型 | 内部表/外部表。 |
| BOS路径 | 当数据表类型选择为外部表时填写该项,填写数据表路径。 |
| AccessKey | 当数据表类型选择为外部表时填写该项,填写BOS路径的智能云账号的AccessKey信息。 |
| SecretKey | 当数据表类型选择为外部表时填写该项,填写BOS路径的智能云账号的SecretKey信息。 |
| 描述 | 填写数据表描述,不超过300个字符。 |
字段信息
字段信息配置项用于定义数据表的字段相关属性,单击添加字段按钮,填写数据表字段信息配置项。
| 配置项名称 | 说明 |
|---|---|
| 字段名称 | 输入字段的名称,用于标识数据表中的某一列,字符长度限制在 1 ~ 128 之间。 |
| 字段类型 | 下拉选择字段的数据类型,BOOLEAN、INT、LONG、FLOAT、DOUBLE、DECIMAL、DATE、TIME、TIMESTAMP、TIMESTAMPTZ、STRING、FIXED、BINARY、LIST、MAP、STRUCT。 |
| 非空 | 勾选该复选框后,该字段在数据表中不允许为空值,能保证数据的完整性。 |
| 字段描述 | 输入对该字段的描述信息,用于说明字段的含义、用途等。 |
| 操作 | 删除:单击操作列删除按钮,可删除当前配置的字段信息。 |
| 添加字段 | 点击 "+ 添加字段"按钮,可新增一个字段配置行,用于添加数据表的其他字段。 |
分区信息
当数据源格式选择为Iceberg时,可配置分区信息。分区信息用于对数据表进行分区管理,以优化数据查询等操作效率。单击添加分区按钮,填写分区信息配置项。
| 配置项名称 | 说明 |
|---|---|
| 字段名称 | 选择用于分区的字段,通过该字段的值将数据划分到不同分区。 |
| 转换函数 | 下拉选择转换函数,identity、bucket、truncate。 |
| 操作 | 删除:单击操作列删除按钮,可移除当前配置的分区信息。 |
| 添加分区 | 点击 "+ 添加分区"按钮,支持为数据表设置多个分区规则,满足复杂的分区需求。 |
高级配置
高级配置用于设置数据表的额外属性,丰富数据表的元数据等信息。
| 配置项名称 | 说明 |
|---|---|
| 属性名称 | 自定义数据表的属性标识,用于描述该属性的含义。 |
| 属性值 | 对应属性名称的具体取值,为属性名称所描述的内容赋予实际的值。 |
| 操作 | 删除:单击操作列删除按钮,可移除当前不需要的属性配置。 |
| 添加表属性 | 点击 "+ 添加表属性"按钮,新增高级配置项,支持为数据表添加多个额外属性。 |
DDL
支持左侧可视化区域定义表结构,系统将自动生成右侧DDL语句以供查看。可视化配置与DDL编辑支持双向同步,最终建表以可视化配置信息为准。
- 格式化:在DDL侧单击格式化按钮,可对下方输入代码进行格式化。
- 语法规范:在DDL侧单击格式化按钮,可在下方展开语法规范,支持关闭。
数据表展示
创建成功的数据表展示在数据模式目录下,展开数据表单击数据表名称可查看数据表具体信息,包括数据表概览、数据预览、详情、权限管理、数据血缘、数据质量、自动运维和DDL。
概览
在数据表详细信息页面通过tab切换查看数据表概览,包括表描述、字段信息和分区信息,描述支持编辑,字段信息支持按照字段名称查询。
表1 数据表概览下字段信息说明
| 字段信息名称 | 说明 |
|---|---|
| 序号 | 字段在表中的顺序编号。 |
| 字段名称 | 数据表中字段的唯一标识。 |
| 字段类型 | 字段存储的数据类型(CHAR、VARCHAR、STRING、TINYINT、SMALLINT、INT、BIGINT、LARGEINT、FLOAT、DOUBLE、DECIMAL、BOOLEAN、DATE、DATETIME、ARRAY)。 |
| 非空 | 表示该字段是否允许为空值。 |
| 字段描述 | 对该字段业务含义的补充说明。 |
| 数据脱敏 | 仅具备数据表管理权限的用户可进行数据脱敏配置。 |
表2 配置数据脱敏配置项说明
| 配置项名称 | 说明 |
|---|---|
| 脱敏字段 | 显示当前字段名称。 |
| 策略名称 | 输入策略名称,支持中文、英文、数值以及_-./()特殊字符,长度不超过256个字符。 |
| 用户范围 | 下拉选择用户,支持搜索用户名。 |
| 算法类型 | 下拉选择算法类型,可选范围根据脱敏字段数据类型决定,全量有哈希、遮掩、截断、变换、加密。 |
| 算法名称 | 下拉选择算法名称,根据选择的脱敏算法类型和脱敏字段数据类型选择算法名称。 |
| 脱敏测试 | 输入脱敏测试,不超过500字符。 |
表3 算法类型对应项说明
| 算法类型 | 算法名称 | 适用数据类型 | 配置参数 |
|---|---|---|---|
| 加密 | AES / SM4 | 字符串类型 | 密钥位数、生成密钥 |
| 截断 | 字符类型截断 | 字符串类型 | 截断前m、n位 |
| 遮掩 | 遮掩前m后n/保留前m后n/遮掩自m到n/保留自m到n/遮掩全部/遮掩邮箱前缀 | 字符串类型 | m、n值 |
| 哈希 | SHA256/MD5/SHA1/SM3 | 字符串类型 | 盐值、参数位置 |
数据预览
用户使用当前空间默认资源组下的分析与AI搜索实例进行数据表预览,在数据表详细信息页面通过tab切换查看数据预览,若未连接计算实例,请联系空间管理员进行资源配置。
- 下载:数据表支持下载和数据分析功能。
- 数据分析:单击右上角数据分析按钮,进入新页签,在工作区当前用户文件夹下创建一个notebook。
详情
表4 数据表基本信息说明
| 列表项 | 说明 |
|---|---|
| 数据目录名称 | 该数据表所属的数据目录名称。 |
| 数据模式名称 | 数据库模式名称。 |
| 数据表名称 | 数据表的唯一标识名称。 |
| 表类型 | 内部表/外部表。 |
| 数据源格式 | ICEBERG。 |
| 存储路径 | 数据表在存储介质上的存储位置路径。 |
| 表属性 | 数据表的自定义属性信息。 |
| 创建时间 | 数据表创建的具体时间。 |
| 创建人 | 创建该数据表的用户名。 |
| 修改时间 | 数据表最后一次修改的时间。 |
| 最近修改人 | 最近一次修改该数据表的用户名。 |
权限管理
支持整表权限、列权限和行权限管理。支持按主体名称搜索和按权限点筛选。
数据血缘
仅Iceberg格式的数据表支持,可查看该表的上下游关联关系。支持按时间范围筛选,按上下游、对象类型、最近活跃时间多维度筛选。
数据质量
仅Iceberg格式的数据表支持。提供表质量通过率、异常规则数、规则校验明细等指标。
自动运维
仅Lance格式的数据表支持。提供版本清理、小文件合并、孤儿文件治理三种自动运维能力。
版本清理
配置版本清理策略,系统将自动清理过期快照版本,释放存储空间。支持配置资源类型、引擎类型、快照保留天数/数量、调度周期等。
小文件合并
配置小文件合并策略,系统自动合并多个小文件,减少文件数、提升查询性能。支持配置目标输出文件行数、调度周期等。
孤儿文件治理
配置孤儿文件治理任务,系统自动清理无版本引用的孤儿文件,释放存储空间。支持配置保留时长、调度周期等。
DDL
在数据表详细信息页面通过Tab切换选择DDL,查看DDL语句,支持复制该语句。
编辑数据表
在数据表页面右上方单击编辑数据表按钮,可对数据表配置信息进行编辑。
重命名数据表
在数据表详情界面右上角更多按钮展开后单击重命名数据表按钮,输入新的数据表名称后确定即可。新名称在数据模式中不可重复。
删除数据表
在数据表详情界面右上角更多按钮展开后单击删除数据表按钮,确认后删除。删除后的数据表无法恢复。
评价此篇文章
