预置数据集(TPC-H)
概述
GaiaDB 提供预置数据集,方便您在创建集群后快速体验产品的功能,进行性能测试。数据集为TPC - H(Transaction Processing Performance Council - Decision Support)数据库基准测试数据集。本篇文档介绍了 GaiaDB 内置数据集的特性、规模等。
注意事项
- 若您创建的集群为免费版,预置数据所占用的存储磁盘空间不收取费用。
- 若您创建的集群为标准版,预置数据所占用的存储磁盘空间根据您选择的对应磁盘类型收取费用。
数据集概述
TPC - H 是一个被广泛用于决策支持系统性能测试的数据库基准测试数据集。它模拟了一个商业数据仓库的环境,包括供应商(Supplier)、零件(Part)、客户(Customer)、订单(Orders)等多种商业对象之间复杂的关系。
数据集规模
本数据集占用 322MB 数据空间。本数据集基于TPC - H生成的 1GB 进行改造,仅保留了订单(Orders)表中1992年的订单数据,同时订单项(Lineitem)表中也不包含非1992年的订单。
数据集模型
该数据模型是基于关系型数据库的星型架构(Star Schema)。以订单(Orders)事实表为中心,周围连接着多个维度表,如客户维度表(Customer)、供应商维度表(Supplier)、零件维度表(Part)等。这种架构模式能够有效地支持复杂的联机分析处理(OLAP)查询,因为维度表可以为事实表中的数据提供详细的上下文信息。详见下方关系图。
TPC - H 基准测试包含 8 张表,具体如下:
- Customer
主要用于存储客户相关的信息。包括客户编号(C_CUSTKEY)、客户名称(C_NAME)、客户地址(C_ADDRESS)、国家代码(C_NATIONKEY)等。这些信息可以用于分析客户的地理位置分布、客户规模等情况。例如,通过客户地址和国家代码可以统计不同国家或地区的客户数量。
- Lineitem
此表记录了订单明细信息。如订单行编号(L_ORDERKEY)、零件编号(L_PARTKEY)、供应商编号(L_SUPPKEY)、数量(L_QUANTITY)、扩展价格(L_EXTENDEDPRICE)等。它与订单表(Orders)和零件表(Part)紧密相关,是分析订单细节、计算销售额等操作的关键表。例如,通过计算扩展价格的总和可以得到总的销售额。
- Nation
存储国家相关的信息,有国家编号(N_NATIONKEY)、国家名称(N_NAME)等。它主要用于和其他表(如 Customer 表)进行关联,以提供国家层面的分析视角。例如,与 Customer 表关联后可以分析不同国家客户的购买行为。
- Orders
用于记录订单的基本信息,包括订单编号(O_ORDERKEY)、客户编号(O_CUSTKEY)、订单日期(O_ORDERDATE)等。它是整个数据集的核心表之一,通过与其他表的关联可以进行多种订单相关的分析,如按日期分析订单数量的变化趋势。
- Part
存储零件的详细信息,如零件编号(P_PARTKEY)、零件名称(P_NAME)、零件类型(P_TYPE)等。与 Lineitem 表结合可以分析零件的销售情况,如不同类型零件的销量。
- Partsupp
记录零件和供应商之间的供应关系,包含零件编号(PS_PARTKEY)、供应商编号(PS_SUPPKEY)、供应数量(PS_AVAILQTY)等。这个表在分析供应链相关问题,如供应商的零件供应能力时非常有用。
- Region
存储区域相关的信息,包括区域编号(R_REGIONKEY)、区域名称(R_NAME)等。它主要用于和 Nation 表关联,以提供更宏观的地理区域分析。例如,分析不同区域内国家的经济活动(通过与客户和订单相关的表关联)。
- Supplier
用于存储供应商的信息,如供应商编号(S_SUPPKEY)、供应商名称(S_NAME)、供应商地址(S_ADDRESS)等。它与其他表(如 Partsupp 表、Lineitem 表)关联可以分析供应商的绩效,如供应的及时性、供应的产品质量等。
数据集场景
TPC - H 数据集涵盖了商业活动中的多个方面。供应商信息包括供应商编号、名称、地址等;零件信息有零件编号、名称、类型、价格等;客户信息涉及客户编号、姓名、地址、电话等;订单信息包含订单编号、客户编号、下单时间、订单总价等。 它模拟了企业在采购、销售、供应链管理等业务场景中的数据交互。比如,在供应链管理场景中,可以通过查询供应商提供的零件信息判断是否满足客户订单的需求,以及评估不同供应商的交货时间和价格等因素。
常见问题
预置的数据收费吗?
预置行为本身不收取费用。若您创建的集群为免费版,则不收取数据费用。若创建集群为标准版,收取占用存储空间的费用(数据集大小为322 MB)。
预置的数据在哪里?
等待集群创建成功后,点击集群,查看数据库管理标签页,即可看到预置的数据库。
如何使用预置的数据进行测试?
预置的数据在集群的数据库管理标签页可见。您需要创建相应的账号、添加白名单,通过客户端访问地址连接集群,详情可以参考快速入门。
已经创建成功的集群还能导入预置数据吗?
暂时不支持在已有集群预置数据,您可以参考TPC - H的教程根据需要自行测试。