Apache RocketMQ 分层存储缓存过大问题分析与解决方案

2025-05-10 20:52:39作者：裴麒琰

Apache RocketMQ is a cloud native messaging and streaming platform, making it simple to build event-driven applications.

项目地址：https://gitcode.com/gh_mirrors/rocketmq3/rocketmq

问题背景

在Apache RocketMQ 5.3.1版本中，当启用分层存储功能并配置强制从分层存储拉取消息时，消费者在拉取大消息时会遇到异常。具体表现为：第一次拉取4MB大小的消息可以成功，但第二次尝试拉取相同消息时会失败，并抛出"Adjusted frame length exceeds 16777216"的异常。

技术原理分析

这个问题涉及到RocketMQ的分层存储架构和Netty的帧解码机制：

分层存储机制：RocketMQ的分层存储将消息数据分为热数据(内存/本地磁盘)和冷数据(远程存储)，通过TieredMessageStore插件实现。当配置tieredStorageLevel=FORCE时，系统会强制从分层存储中读取消息。
Netty帧解码：RocketMQ使用Netty进行网络通信，默认配置了16MB的最大帧长度限制。当消息超过这个大小时，Netty会抛出TooLongFrameException。
缓存机制：分层存储模块在读取消息时会使用缓存来提高性能。问题出在缓存处理逻辑上，当读取大消息时，缓存中的数据可能被错误地拼接，导致最终返回的数据大小超出限制。

问题根因

深入分析代码后发现，问题的根本原因在于：

分层存储的缓存管理逻辑存在缺陷，当处理大消息时，缓存中的数据块可能被错误地合并，导致返回的消息体大小超出预期。
虽然单条消息大小(4MB)在Netty的16MB限制范围内，但由于缓存处理不当，实际返回的数据可能被错误地放大。
第一次拉取成功是因为直接从存储读取，而第二次失败是因为尝试从缓存读取时触发了这个问题。

解决方案

社区通过以下修改解决了这个问题：

修复了分层存储缓存管理逻辑，确保大消息的缓存处理正确无误。
优化了消息读取流程，防止缓存中的数据被错误拼接。
增加了对大消息处理的检查机制，确保返回的数据大小符合预期。

最佳实践建议

对于使用RocketMQ分层存储功能的用户，建议：

对于大消息场景(超过1MB)，应仔细测试分层存储功能。
监控网络层异常，特别是TooLongFrameException，这可能是缓存问题的早期信号。
考虑消息大小与网络配置的匹配关系，必要时调整Netty的最大帧大小参数。
及时升级到包含此修复的版本，以确保分层存储功能的稳定性。

总结

这个问题展示了分布式消息系统中缓存管理与网络通信之间的微妙交互。RocketMQ社区通过深入分析缓存处理逻辑，修复了一个可能导致大消息处理异常的关键问题。这提醒我们在实现分层存储这类复杂功能时，需要特别注意处理逻辑和异常场景的处理。

Apache RocketMQ is a cloud native messaging and streaming platform, making it simple to build event-driven applications.

项目地址：https://gitcode.com/gh_mirrors/rocketmq3/rocketmq

登录后查看全文

热门内容推荐

1 编程实践项目探索指南：从零构建技术能力体系 2 技术解构式学习：从0到1构建你的编程知识体系 3 构建自己的技术世界：build-your-own-x项目的实践探索指南 4 解锁编程技能的实践之旅：从零构建你的技术世界 5 技术实践探索：从零开始构建核心系统的实践指南 6 亲手锻造技术引擎：从0到1构建核心系统的实践指南

最新内容推荐

AcFunDown视频下载工具完全指南还在为数字笔记抓狂？这款开源神器让手写批注效率提升300%Windows笔记本电池健康管理全指南：从根源解决电池损耗问题 gmx_MMPBSA分子间相互作用索引错误的深度诊断与解决 Axure RP 11 本地化方案：Mac中文界面优化与原型设计工具汉化全指南如何高效获取教育资源？这款工具让教材下载效率提升80%视频元数据深度编辑：专业技巧与案例网盘直链下载技术解析与应用指南如何用DeepSeek-R1推理模型提升复杂任务解决能力：完整指南 5个突破瓶颈技巧：硬件优化工具让你的电脑性能提升30%

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Oohos_react_native

React Native鸿蒙化仓库