Apache SeaTunnel ClickHouse 数据导出并行度问题分析

2025-05-29 18:19:13作者：晏闻田Solitary

问题现象

在使用Apache SeaTunnel从ClickHouse导出数据到本地文件时，发现了一个数据量不一致的问题。当配置导出100条记录时，实际导出了200条；配置导出100万条时，实际导出了200万条。这种情况并非每次都会发生，大约每10-20次操作会出现一次。

测试环境使用了以下配置：

经过技术团队深入分析，发现问题出在ClickHouse连接器的并行处理机制上。具体原因如下：

并行度与LIMIT子句的交互问题：当设置并行度大于1时，每个并行任务都会执行相同的SQL查询，包括LIMIT子句。这意味着如果并行度为4，理论上可能会获取400条记录（4×100）。
任务分配机制缺陷：ClickHouseSourceSplitEnumerator类中的任务分配逻辑存在竞态条件。当多个读取器同时向枚举器注册时，可能会同时接收到查询任务，导致重复查询。
并行支持不完善：当前实现中，一旦一个子任务被分配了读取任务，其他子任务将不会再被分配任务。这表明当前的ClickHouse连接器实际上并不完全支持真正的并行读取。

在ClickHouseSourceSplitEnumerator.java的77行附近，存在以下关键逻辑：

if (assigned < 0) {
    assigned = subTaskId;
    // 这意味着其他读取器将不会被分配读取任务
}

这段代码的本意是确保只有一个读取器执行查询，但由于缺乏同步锁机制，在多个读取器同时注册时，可能会出现多个读取器都认为自己被分配了任务的情况。

针对这个问题，技术团队提出了以下解决方案：

添加同步锁机制：在任务分配逻辑中添加适当的同步控制，确保同一时间只有一个读取器被分配查询任务。
改进并行支持：重新设计并行查询机制，可以考虑以下两种方案：
- 实现真正的分片查询，让每个并行任务处理数据的不同部分
- 明确限制ClickHouse源的并行度为1，避免误解
结果集合并控制：在接收端添加结果去重或合并控制，确保最终输出的数据量符合预期。