Apache SeaTunnel Kafka 连接器内存溢出问题分析与解决方案

2025-05-27 16:38:18作者：劳婵绚Shirley

问题背景

在Apache SeaTunnel项目中使用Kafka连接器时，开发人员发现了一个严重的内存管理问题。当部署SeaTunnel Engine分离模式集群（1个master和1个worker，配置为8核12G内存）运行流式作业时，从Kafka到HDFS的数据传输过程中会出现内存持续增长的问题。

问题现象

在测试环境中，Kafka主题包含1000万条数据，配置了如下环境参数：

env {
  parallelism = 1
  job.mode = "STREAMING"
  checkpoint.interval = 10000
  read_limit.rows_per_second=1
}

观察到以下异常现象：

任务启动后worker内存使用量在5分钟内从200MB飙升至5GB
通过API停止作业后内存不会释放
恢复任务到RUNNING状态后内存继续增长直至OOM
read_limit.rows_per_second=1参数未生效，无法真正限制Kafka数据读取速率

根本原因分析

经过代码审查，发现问题出在KafkaSource类的createReader方法中。该方法创建了一个无界队列：

elementsQueue = new LinkedBlockingQueue<>();

这个设计存在两个关键缺陷：

队列未设置容量限制，导致在高吞吐场景下内存无限增长
数据读取速率控制(read_limit)未与队列管理机制有效集成

解决方案

修复方案主要包含以下改进：

在KafkaSourceConfig中新增队列大小配置参数
为LinkedBlockingQueue设置合理的默认容量(1000)
允许用户通过配置自定义队列大小

核心修改如下：

public class KafkaSource {
    private static final String QUEUE_SIZE_KEY = "queue.size";
    private static final int DEFAULT_QUEUE_SIZE = 1000;
    
    public SourceReader<SeaTunnelRow, KafkaSourceSplit> createReader(
            SourceReader.Context readerContext) {
        int queueSize = kafkaSourceConfig.getInt(QUEUE_SIZE_KEY, DEFAULT_QUEUE_SIZE);
        BlockingQueue<RecordsWithSplitIds<ConsumerRecord<byte[], byte[]>>> elementsQueue =
                 new ArrayBlockingQueue<>(queueSize);
        // ...
    }
}