ByConity分布式查询并行度设置不当导致数据重复问题分析

2025-07-03 01:24:41作者：幸俭卉

问题背景

在ByConity 1.0.0版本中，用户在使用ETL模式执行分布式查询时发现了一个异常现象：当设置distributed_max_parallel_size参数值超过实际worker节点数量时，查询结果会出现数据量异常增加的情况。具体表现为：

ByConity作为分布式分析型数据库，其查询执行采用MPP(Massively Parallel Processing)架构。distributed_max_parallel_size参数控制查询执行的并行度，即查询计划将被拆分成多少个并行任务执行。

在理想情况下，系统会根据以下因素确定最佳并行度：

在1.0.0版本中，当用户设置的并行度超过实际worker节点数量时，系统调度机制存在缺陷：

特别是在涉及JOIN操作的场景下，这种问题更容易被放大，因为JOIN操作本身就会产生数据膨胀，再加上调度问题导致的数据重复，最终结果会出现明显的数据量异常。

ByConity团队在1.0.1版本中修复了此问题，主要改进包括：

对于仍在使用1.0.0版本的用户，建议采取以下临时解决方案：

在使用ByConity进行分布式查询时，建议遵循以下原则：

分布式查询的并行度设置是影响ByConity性能和结果准确性的重要因素。通过理解其内部工作机制和合理配置参数，可以充分发挥分布式架构的优势，同时避免数据一致性问题。1.0.1版本的改进使系统在这方面更加健壮和可靠。

登录后查看全文