Apache Pegasus 分区加载时间优化实践

2025-07-05 15:37:36作者：苗圣禹Peter

背景介绍

Apache Pegasus 是一个高性能的分布式键值存储系统，在数据加载过程中，分区加载时间直接影响系统整体性能。近期社区发现，在数据加载阶段，分区会阻塞写入操作，导致系统出现明显的性能瓶颈。

问题分析

通过详细测试发现，整个数据加载过程存在明显的性能问题：

单表级别的加载时间在不同并发度下表现差异显著
分区级别的加载时间普遍较长，平均在27-30秒之间
底层RocksDB的实际加载时间极短，仅200毫秒左右

核心问题定位在元数据服务发送RPC_BULK_LOAD请求的时间间隔过长（10秒一次），这成为性能瓶颈的主要因素。

性能测试数据

在不同并发级别下的测试数据如下：

并发级别	表加载时间(ms)	分区最短时间(ms)	分区最长时间(ms)	平均分区时间(ms)	RocksDB最高时间(ms)	RocksDB平均时间(ms)
8	470006	15007	30075	27244	618	459.06
16	240005	19978	30002	28652	580	482.43
100	40004	29967	29986	29978	620	509.65

从数据可以看出，随着并发度的提高，表级别的加载时间有所改善，但分区级别的加载时间仍然居高不下，而底层存储引擎的实际处理时间却非常短。

优化方案

针对这一问题，社区提出了以下优化方向：

缩短元数据服务发送RPC_BULK_LOAD请求的时间间隔
优化分区加载的调度策略
实现更精细化的并发控制

实施效果

经过代码优化后，分区加载时间得到显著改善，系统整体吞吐量提升明显。这一优化对于大数据量场景下的系统性能提升尤为重要，特别是在需要频繁进行数据加载操作的业务场景中。

技术启示

这一优化案例给我们带来以下技术启示：

分布式系统中，元数据服务的性能往往成为系统瓶颈
合理的RPC调用频率设置对系统性能至关重要
性能优化需要基于详实的测试数据进行精准定位
系统各组件间的协同工作需要精细调优

Apache Pegasus社区通过这一问题的高效解决，再次展现了开源社区协作的力量和技术实力。这一优化不仅提升了系统性能，也为类似分布式存储系统的性能调优提供了宝贵经验。

incubator-pegasus

项目地址：https://gitcode.com/gh_mirrors/inc/incubator-pegasus

登录后查看全文

项目优选

收起

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力