易点天下:基于StarRocks的实时离线一体湖仓方案实践

作者:快去debug2024.04.09 12:36浏览量:4

简介:随着数据量的激增,易点天下选择了StarRocks数据库构建实时离线一体的湖仓方案,以解决数据查询的瓶颈问题。本文详细阐述了易点天下基于StarRocks的湖仓方案的设计与实践,包括数据分层、业务类和数据域定义、数据指标规范、数据模型规范以及模型衡量指标等方面,旨在为读者提供可操作的建议和解决问题的方法。

随着企业数据量的不断增长,如何高效地管理和查询数据成为了摆在企业面前的一大难题。易点天下作为一家领先的互联网公司,对数据的管理和查询有着极高的要求。在过去,易点天下使用SparkSQL作为主要的数据查询引擎,但发现查询效率无法满足业务需求,特别是在多用户并发查询时,查询性能更是大打折扣。为了解决这一问题,易点天下开始探索新的数据解决方案,并最终选择了基于StarRocks的实时离线一体湖仓方案。

一、数据分层

易点天下的数据仓库采用了典型的数据分层架构,包括数据引入层(ODS)、明细数据层(DWD)、汇总数据层(DWS)、数据应用层(ADS)以及维度层(DIM)。这种分层架构有助于将数据按照不同的业务场景进行划分,提高数据查询的效率和准确性。

二、业务类和数据域定义

在构建数据仓库的过程中,易点天下明确了业务类和数据域的定义。通过规范数据仓库处理数据的范围以及处理数据的业务类型,确保了数据的准确性和一致性。同时,这也为后续的数据查询和分析提供了便利。

三、数据指标规范

易点天下制定了详细的数据指标规范,包括原子指标、复合指标和派生指标等。这些指标为业务人员提供了直观的数据视角,有助于他们更好地理解业务数据,从而做出更准确的决策。

四、数据模型规范

在数据模型方面,易点天下遵循了命名规范、存储规范和数据规范三个方面的要求。统一的数据模型规范不仅提高了开发维护效率,还避免了不必要的数据质量问题。

五、模型衡量指标

为了评估数据仓库的性能和效果,易点天下设置了多个模型衡量指标,包括命名规范性和数据完整性、中间层表的增长比例、应用层ADS跨层访问(穿透)、较多的ADS表共性逻辑未下沉以及应用层跨集市依赖等。这些指标为易点天下提供了全面的数据仓库性能评估依据。

六、基于StarRocks的实时离线一体湖仓方案

在选择了StarRocks作为新的数据查询引擎后,易点天下对其进行了全面的部署和优化。StarRocks作为一个高性能的分布式数据库,具有实时查询和离线分析的能力,能够很好地满足易点天下的业务需求。通过catalog的形式查询Hudi集群,易点天下实现了对数据的实时查询和离线分析,大大提高了数据查询的效率和准确性。

在实际应用中,易点天下发现基于StarRocks的湖仓方案在多用户并发查询时表现优异,查询性能得到了显著提升。同时,StarRocks的实时查询能力也为易点天下提供了更多的数据洞察机会,有助于他们更好地把握市场趋势和业务机会。

总结:

通过基于StarRocks的实时离线一体湖仓方案,易点天下成功地解决了数据查询的瓶颈问题。这种方案不仅提高了数据查询的效率和准确性,还为易点天下提供了更多的数据洞察机会。在未来,易点天下将继续深化对StarRocks的应用和优化,以期在数据管理和查询方面取得更大的突破。