Apache Arrow DataFusion 性能优化：分离Tokio运行时创建与基准测试

2025-06-14 19:54:31作者：田桥桑Industrious

在Apache Arrow DataFusion项目的性能优化过程中，开发团队发现了一个影响基准测试结果准确性的重要问题。许多基准测试无意中将Tokio运行时的创建时间纳入了测试范围，这导致了对实际性能评估的偏差。

问题背景

Apache Arrow DataFusion是一个用Rust编写的分布式查询引擎，它大量使用了Tokio异步运行时来处理并发任务。在编写性能基准测试时，开发人员通常会在测试函数内部创建Tokio运行时(Runtime::new::unwrap())，然后执行被测代码。这种做法虽然方便，但会带来两个主要问题：

运行时创建的开销被计入基准测试结果
每次测试迭代都会重复创建运行时，增加了不必要的开销

技术分析

Tokio运行时的创建涉及资源分配、线程池初始化等操作，这些操作本身就有一定开销。当这些开销被计入基准测试时，会导致：

测试结果比实际性能差
不同测试间的比较基准不一致
难以准确评估代码变更带来的真实性能影响

解决方案

项目团队决定将运行时的创建提取到基准测试函数之外。这种优化带来了以下好处：

更准确的性能测量：只测量被测代码的实际执行时间
减少重复开销：避免每次测试迭代都重新创建运行时
提高测试一致性：所有测试共享相同的运行时环境

实现细节

在具体实现上，团队采用了以下模式：

// 在基准测试模块的顶层创建运行时
lazy_static! {
    static ref RUNTIME: Runtime = Runtime::new().unwrap();
}

// 在基准测试函数中使用预先创建的运行时
fn benchmark_function(c: &mut Criterion) {
    c.bench_function("my_benchmark", |b| {
        b.iter(|| {
            RUNTIME.block_on(async {
                // 被测代码
            })
        })
    });
}