Reactor Netty 中 Direct Memory 内存泄漏问题的分析与解决

2025-06-29 19:25:11作者：咎竹峻Karen

TCP/HTTP/UDP/QUIC client/server with Reactor over Netty

项目地址：https://gitcode.com/gh_mirrors/re/reactor-netty

问题背景

在使用 Reactor Netty 构建的响应式应用程序中，开发团队遇到了一个严重的内存问题。当处理大量大体积响应数据（1MB-5MB）时，应用程序的 Direct Memory（直接内存）会从初始的 5MB 持续增长至 1GB，最终导致容器因内存超限而重启。

技术环境

该应用程序基于以下技术栈构建：

Reactor Netty 1.2.0
Netty 4.1.111.Final
Spring Framework 6.1.13
Spring Boot 3.2.9
运行在 Kubernetes 环境中，容器配置为 3 核 CPU 和 4GB 内存
使用 OpenJDK 17.0.13

问题现象

在负载测试中，当系统以 2-3TPS 的吞吐量持续运行 30 分钟到 1 小时后，观察到以下现象：

直接内存持续增长，从初始的 5MB 增长到 1GB
最终触发容器内存限制，导致应用重启
通过监控指标 reactor_netty_bytebuf_allocator_used_direct_memory 观察到直接内存使用量峰值达到 1.3GB

根本原因分析

经过深入调查，发现问题的根源在于以下几个方面：

LoopResources 配置过高：初始配置中设置了 300 个事件循环线程，每个线程在处理大响应时都需要分配直接内存缓冲区。按照 5MB 的响应大小计算，理论上可能占用高达 1.5GB 的直接内存。
直接内存管理机制：Netty 使用池化的直接内存分配器，虽然内存会被重用，但池的大小会根据需求动态增长，而不会主动收缩。这解释了为什么即使负载降低，直接内存使用量也不会减少。
内存限制配置不当：容器总内存限制为 4GB，而 JVM 堆内存配置为 3GB，留给直接内存的空间不足，特别是在高并发处理大响应时。

解决方案

团队采取了以下措施成功解决了问题：

优化 LoopResources 配置：将事件循环线程数从 300 减少到 80，这使得最大直接内存使用量降至 500-600MB 的合理范围。
理解内存监控指标：
- reactor.netty.bytebuf.allocator.used.direct.memory：表示分配的总直接内存量，这个值不会减少
- reactor.netty.bytebuf.allocator.active.direct.memory：表示当前活跃使用的直接内存量，会随负载变化
合理规划内存分配：确保容器总内存限制、JVM 堆内存和直接内存需求之间有足够的缓冲空间。

经验总结

在配置 Reactor Netty 时，需要根据实际负载情况合理设置 LoopResources 的线程数，避免过度配置。
处理大体积响应时，需要特别关注直接内存的使用情况，预留足够的内存空间。
理解 Netty 内存管理机制对于性能调优至关重要，特别是直接内存的分配和回收特性。
监控指标的选择和解读对于问题诊断非常重要，需要区分"已分配"和"活跃使用"的内存概念。

通过这次问题的解决，团队深入理解了 Reactor Netty 的内存管理机制，为后续的性能优化和容量规划积累了宝贵经验。

TCP/HTTP/UDP/QUIC client/server with Reactor over Netty

项目地址：https://gitcode.com/gh_mirrors/re/reactor-netty

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

昇腾LLM分布式训练框架

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started