Hive元数据说明
更新时间:2025-01-23
概述
元数据(Meta Data)在大数据中是描述数据的数据,提供有关数据的信息,帮助用户理解和管理数据。元数据包括有关数据的属性、结构、来源、格式、质量、安全性以及与其他数据的关系等信息。元数据在大数据环境中起到了关键的作用,帮助组织更好地利用和管理其数据资产。 目前大数据领域,常用的元数据服务由Hive Metastore来提供。
Hive元数据
- 登录控制台,选择产品服务-MapReduce BMR,进入集群列表页。
- (可选)选择区域,区域说明请参考区域选择说明。在不同区域创建的集群相互独立。
- 点击创建集群,进入创建集群页。
- 集群类型选择 Hadoop,可选服务选择 Hive,显示 Hive 元数据配置,支持 DEFALUT(Hive Metasore)、MySQL、EDAP元数据。
Hive Metastore
Hive Metastore最初是 Hive 的关键组件,管理元数据。Hive Metastore需要一个数据库来存储真正的数据。一个集群可以有多个 Hive Metastore,以此提高 Hive Metastore 的高可用性。如果期望多个集群使用同一个元数据库,则数据文件必须存在各个集群都能访问的地方,例如对象存储。
在 BMR 集群中,Hive Metastore 的数据库可以是集群本地MySQL,也可以是外部数据库,例如云数据库RDS,亦可以存在EDAP中。
EDAP 元数据
目前 BMR-3.2.3 及以上发行版支持 EDAP 元数据,支持区域包括 北京、广州、苏州、保定。使用 EDAP 元数据进行统一管理,可以为用户带来以下优势:
- EDAP元数据稳定性更高,采用中心化管理,不必担心集群出问题导致元数据丢失。
- EDAP元数据可以让元数据生命周期超越集群生命周期,多个集群共用元数据,并且延伸出更多的管理功能。
- EDAP元数据+存算分离可以使整个BMR集群变成一个无状态的计算集群,可以随时缩容、释放来节约成本,帮助客户降本增效。
Trino元数据
- 登录控制台,选择产品服务-MapReduce BMR,进入集群列表页。
- (可选)选择区域,区域说明请参考区域选择说明。在不同区域创建的集群相互独立。
- 点击创建集群,进入创建集群页。
- 集群类型选择 Hadoop,可选服务选择 Trino,显示 Trino 元数据配置,支持 DEFALUT、EDAP元数据。
注意:如您选择DEFAUT,需登录集群手动更改 Trino Catalog 配置,参考官网文档。