Apache SeaTunnel Kafka 连接器内存溢出问题分析与解决方案

2025-05-29 13:08:54作者：滑思眉Philip

问题背景

在Apache SeaTunnel 2.3.9版本的Kafka连接器实现中，存在一个潜在的内存溢出风险。当用户配置流式作业从Kafka读取数据时，即使设置了读取速率限制(read_limit.rows_per_second)，系统仍可能出现内存持续增长直至OOM(Out Of Memory)的情况。

问题现象

用户在实际部署中观察到以下现象：

在8核12G内存的SeaTunnel Engine集群上运行Kafka到HDFS的流式作业
虽然配置了read_limit.rows_per_second=1的速率限制，但内存使用量在5分钟内从200MB飙升至5GB
停止作业后内存不释放，恢复作业后内存继续增长直至OOM
最终导致worker节点重启

根本原因分析

通过代码审查发现，问题根源在于KafkaSource类的createReader方法中，elementsQueue被初始化为无界队列：

elementsQueue = new LinkedBlockingQueue<>();

这种实现方式存在两个关键问题：

队列无界：LinkedBlockingQueue未指定容量，理论上可以无限增长，当生产者速度远大于消费者速度时，会导致内存持续增长。
速率限制失效：虽然用户配置了read_limit.rows_per_second=1，但该限制并未真正作用于Kafka数据读取环节，导致数据持续堆积在内存队列中。

解决方案

社区通过PR#9041修复了此问题，主要改进包括：

引入有界队列：将LinkedBlockingQueue替换为固定大小的ArrayBlockingQueue
可配置队列大小：新增queue.size配置参数，允许用户根据实际情况调整
默认安全值：设置DEFAULT_QUEUE_SIZE=1000作为默认队列容量

核心实现代码变更如下：

public class KafkaSource {
    private static final String QUEUE_SIZE_KEY = "queue.size";
    private static final int DEFAULT_QUEUE_SIZE = 1000;
    
    public SourceReader<SeaTunnelRow, KafkaSourceSplit> createReader(
            SourceReader.Context readerContext) {
        int queueSize = kafkaSourceConfig.getInt(QUEUE_SIZE_KEY, DEFAULT_QUEUE_SIZE);
        BlockingQueue<RecordsWithSplitIds<ConsumerRecord<byte[], byte[]>>> elementsQueue =
                 new ArrayBlockingQueue<>(queueSize);
        // ...
    }
}