SeaTunnel Kafka连接器内存溢出问题分析与解决

2025-05-27 10:06:07作者：伍希望

问题背景

在SeaTunnel项目中使用Kafka连接器时，发现当处理大规模数据流时会出现内存持续增长直至内存溢出(OOM)的问题。具体表现为：在部署SeaTunnel Engine分离模式集群(1个master和1个worker)并配置8核12G内存环境下，运行一个从Kafka到HDFS的数据流任务时，即使设置了read_limit.rows_per_second=1的限流参数，worker节点的内存使用量仍会在短时间内从200MB飙升至5GB，最终导致OOM错误。

问题分析

通过对KafkaSource源码的深入分析，发现问题的核心在于elementsQueue的实现方式。在KafkaSource类的createReader方法中，elementsQueue被初始化为一个无界队列(LinkedBlockingQueue未指定容量)，这导致当Kafka中的数据流入速度超过下游处理速度时，队列会无限增长，最终耗尽系统内存。

值得注意的是，虽然配置了read_limit.rows_per_second=1的参数，但实际上这个限流机制并未真正作用于Kafka数据读取环节。这是因为KafkaSource内部的数据缓冲队列没有与限流参数建立关联，导致限流策略失效。

解决方案

针对这一问题，我们提出了以下改进方案：

在KafkaSourceConfig中新增队列大小配置参数queue.size，默认值为1000
将无界队列LinkedBlockingQueue替换为有界队列ArrayBlockingQueue
确保队列容量与限流参数协调工作

改进后的关键代码如下：

public class KafkaSource {
    private static final String QUEUE_SIZE_KEY = "queue.size";
    private static final int DEFAULT_QUEUE_SIZE = 1000;
    
    public SourceReader<SeaTunnelRow, KafkaSourceSplit> createReader(
            SourceReader.Context readerContext) {
        int queueSize = kafkaSourceConfig.getInt(QUEUE_SIZE_KEY, DEFAULT_QUEUE_SIZE);
        BlockingQueue<RecordsWithSplitIds<ConsumerRecord<byte[], byte[]>>> elementsQueue =
                 new ArrayBlockingQueue<>(queueSize);
        // ...其他代码
    }
}