Arrow DataFusion 中优化 unwrap_or 函数调用的实践

2025-05-31 13:10:26作者：郦嵘贵Just

在 Rust 开发中，我们经常需要处理 Option 或 Result 类型的值，这时 unwrap_or 和 unwrap_or_else 是两个常用的方法。然而，在 Apache Arrow DataFusion 项目中，开发者发现了一些可以优化的代码模式，特别是在处理函数调用时的性能考量。

问题背景

在 DataFusion 的代码审查过程中，开发者注意到有些地方使用了 unwrap_or 方法来提供默认值，而默认值是通过函数调用生成的。例如：

unwrap_or("".to_string())

这种写法虽然简洁，但存在潜在的性能问题。因为 unwrap_or 会立即计算其参数的值，无论 Option 是否包含值。这意味着即使 Option 有值，to_string() 方法也会被调用，造成不必要的计算开销。

更优的写法是使用 unwrap_or_else，它接受一个闭包作为参数，只有在需要默认值时才会执行闭包中的代码：

unwrap_or_else(|| "".to_string())

这种惰性求值的方式可以避免不必要的函数调用，特别是在默认值计算成本较高的情况下。

为了系统地解决这个问题并防止类似情况再次发生，DataFusion 项目采取了以下措施：

逐步引入 lint 检查：建议逐个 crate 添加 or_fun_call lint 检查，确保变更可控且易于审查。
添加 unnecessary_lazy_evaluations lint：同时添加这个 lint 可以防止过度使用 unwrap_or_else，保持代码简洁性。
示例实施：在 core crate 中率先实施这些 lint，为其他 crate 提供参考模板。

这两种方法的区别在于求值时机：

在性能敏感的场景下，特别是当默认值的计算涉及内存分配（如 String 创建）或复杂计算时，使用 unwrap_or_else 可以带来明显的性能提升。

基于此优化经验，可以总结出以下 Rust 开发中的最佳实践：

这种优化虽然看似微小，但在大规模数据处理框架如 DataFusion 中，累积起来可能产生显著的性能提升，特别是在热点代码路径上。

登录后查看全文