Arrow Ballista项目配置优化：精简BallistaConfig设计

2025-07-09 06:37:17作者：丁柯新Fawn

背景

在分布式查询引擎Arrow Ballista项目中，配置管理一直存在冗余问题。当前系统同时维护着BallistaConfig和SessionConfig两套配置体系，其中大量配置项实际上是重复的。这种设计不仅增加了维护成本，也容易导致配置不一致的问题。

问题分析

通过对比分析，我们发现Ballista中有多达10组配置项与DataFusion的配置完全对应。例如：

ballista.batch.size对应datafusion.execution.batch_size
ballista.collect_statistics对应datafusion.execution.collect_statistics
ballista.repartition.aggregations对应datafusion.optimizer.repartition_aggregations

这些配置项在功能上完全一致，只是前缀不同。在代码实现中，Ballista实际上是通过SessionConfig::from_string_hash_map方法将这些配置转换为DataFusion的配置格式，然后再通过一系列with_*方法覆盖设置。

解决方案

我们建议对配置系统进行以下优化：

精简BallistaConfig：将其仅保留Ballista特有的配置项，如：
- ballista.grpc_client_max_message_size（gRPC客户端最大消息大小）
- ballista.job.name（作业名称）
统一使用SessionConfig：将原本在BallistaConfig中的通用配置项完全交由DataFusion的SessionConfig管理
特殊配置处理：对于必须设置为特定值的配置（如datafusion.optimizer.enable_round_robin_repartition必须为false），在上下文创建时显式设置

技术实现

在具体实现上，create_datafusion_context函数可以简化为：

pub fn create_datafusion_context(
    ballista_config: &BallistaConfig,  // 仅包含Ballista特有配置
    session_builder: SessionBuilder,
) -> Arc<SessionContext> {
    let config = SessionConfig::new()
        .with_target_partitions(ballista_config.default_shuffle_partitions())
        .set_bool("datafusion.optimizer.enable_round_robin_repartition", false);
    
    let session_state = session_builder(config);
    Arc::new(SessionContext::new_with_state(session_state))
}