Apache Arrow DataFusion 基准测试框架的容错性增强方案

2025-06-14 22:32:19作者：宣利权Counsellor

在数据库和查询引擎的性能评估中，基准测试是衡量系统稳定性和效率的重要手段。Apache Arrow DataFusion项目作为高性能查询引擎，其内置的TPC-H、ClickBench等基准测试套件对验证引擎能力至关重要。然而，现有测试框架存在一个关键缺陷：当单个查询执行失败时，整个测试流程会立即终止，这不利于全面评估系统在资源受限环境下的稳定性表现。

现有测试框架的局限性

当前DataFusion的基准测试实现采用"全有或全无"的执行策略。这种设计存在两个主要问题：

测试连续性不足：任何查询失败都会导致剩余测试案例被跳过，无法完整反映系统处理能力边界
诊断信息缺失：失败场景下缺乏细粒度的结果记录，难以分析具体哪些查询在特定资源条件下无法完成

这些问题尤其影响内存受限场景的评估，而内存管理正是现代查询引擎的核心能力之一。

技术改进方案

针对上述问题，我们提出对基准测试框架进行以下关键改进：

错误隔离机制：改造各基准测试的run.rs执行逻辑，使单个查询失败不影响其他查询执行
结果增强记录：在JSON输出中新增status字段，明确标记每个查询的执行状态（成功/失败）
错误信息持久化：将查询失败时的错误信息捕获并写入结果文件，便于后续分析

改进后的执行流程将具备更强的容错能力，同时提供更丰富的诊断信息。

实现细节

以TPC-H基准为例，核心修改涉及测试运行器的错误处理逻辑：

// 伪代码展示关键修改点
for query in queries {
    let result = execute_query(query);
    match result {
        Ok(metrics) => {
            results.push(QueryResult {
                name: query.name,
                status: "success",
                metrics,
            });
        }
        Err(e) => {
            results.push(QueryResult {
                name: query.name,
                status: "failed",
                error: e.to_string(),
                metrics: None,
            });
            continue; // 关键：失败后继续执行而非退出
        }
    }
}