简介:本文介绍了某工商信息商业查询平台如何利用Apache Doris实现从传统Lambda架构到湖仓一体架构的升级,解决了数据孤岛、不一致和高并发查询等难题,提升了数据处理和分析效率。
在当今信息化社会,信息服务行业扮演着至关重要的角色,它通过提供多样化、便捷、高效、安全的信息化服务,为个人及商业决策提供了重要支撑与参考。然而,对于行业相关企业来说,如何合理利用并处理海量数据,成为了一个亟待解决的难题。特别是对于那些需要实时更新企业公开信息的工商信息商业查询平台来说,更是面临着数据准确性和实时性的双重挑战。
某工商信息商业查询平台,自成立之初便致力于ToC和ToB两条业务线的发展。ToC业务线主要为C端用户提供个性化、精准化的服务;而ToB业务线则侧重于为B端客户提供数据接口服务与交付服务,同时也会处理一些公司内部数据分析需求。随着业务的不断拓展,该平台面临着企业公开信息频繁变更、数据量激增等挑战,传统Lambda架构已难以满足其需求。
传统Lambda架构分为离线和实时两套处理流程,虽然具有一定的灵活性,但存在逻辑冗余、数据不一致、数据孤岛等问题。特别是在面对庞大且频繁的数据变更时,如何保证数据的准确性和实时性成为了一项艰巨的任务。此外,随着数据量的不断增加,如何快速、高效地处理和分析这些数据也成为了另一个亟需解决的问题。
为了应对这些挑战,该平台开始寻找一个能够集数据集成、查询、分析于一身的强大引擎。经过深入调研和比较,Apache Doris凭借其多种Join逻辑、高吞吐Upsert写入、支持Bitmap、极简易用等优势,成为了该平台的理想选择。
该平台首先使用Apache Doris替换了离线处理链路中的Hive,并通过对Light Schema Change、Unique Key写时合并等特性的尝试与实践,成功实现了数据服务层All in Apache Doris的架构升级。这一升级打破了数据孤岛,实现了数据的统一管理和高效处理。
在架构升级过程中,该平台充分利用了Doris的特性来优化数据处理和分析效率。例如,通过引入Merge-on-Write机制,实现了百亿级单表查询速度的显著提升;通过PartialUpdate机制,加速了两表关联的开发,提高了多表级联开发的效率;通过Colocation Join和Bucket Shuffle Join等优化手段,提升了整体查询速度,满足了高并发查询的需求。
此外,该平台还借助Doris实现了离线及实时数仓的数据入口和查询出口的统一,满足了BI分析、离线计算、C端高并发等业务需求。这为企业内部、产品营销、客户运营等场景提供了强大的数据洞察及价值挖掘能力。
自Apache Doris上线以来,该平台的业务覆盖范围迅速扩大,并在短期内取得了显著的成果。例如,在2023年3月,Doris正式上线后,便运行了两个集群十余台BE,共同支撑大规模的数据处理分析任务,每天支撑数据量高达10亿条,计算指标达500+。到2023年5月,借助Doris完成数分团队商业化分析集群ETL任务的流式覆写,近半离线定时调度任务迁移至Doris中,提高了离线计算任务的稳定性和时效性。同时,绝大多数实时任务也迁移至Apache Doris中,整体集群规模达到二十余台。
总之,通过引入Apache Doris并构建湖仓一体架构,该工商信息商业查询平台成功解决了数据孤岛、不一致和高并发查询等难题,提升了数据处理和分析效率。这一实践不仅为信息服务行业提供了有价值的参考思路,也有助于推动整个行业的发展和创新。在未来,随着数据量的继续增长和业务的不断拓展,该平台将继续深化与Doris的合作,探索更多高效的数据处理和分析方案。