Apache Arrow C++项目中的Sanitizer构建配置优化

2025-05-15 20:34:59作者：尤峻淳Whitney

在C++项目开发过程中，使用各种sanitizer工具(如AddressSanitizer、ThreadSanitizer等)进行内存错误检测和线程问题排查是非常重要的一环。Apache Arrow作为一个高性能的内存数据框架，其C++实现部分同样需要这类工具来保证代码质量。

背景与挑战

传统上，开发者在Apache Arrow项目中使用sanitizer工具时面临几个不便之处：

需要手动设置多个CMake变量，包括启用特定sanitizer的开关(如ARROW_USE_XXSAN)、禁用jemalloc和mimalloc(因为sanitizer通常与第三方内存分配器不兼容)
在IDE(如VSCode)中配置这些选项会导致大部分源文件重新编译，因为编译器标志发生了变化
直接修改CMakePresets.json文件又担心不小心将这些临时变更提交到代码库中

针对这些问题，Apache Arrow社区提出了两种解决方案：

使用CMakeUserPresets.json：这是一个用户级的预设文件，已经被包含在项目的.gitignore中，不会被意外提交。开发者可以在这里添加自己的构建配置而不用担心影响主项目配置。
添加专门的sanitizer预设：虽然CMakeUserPresets.json已经解决了主要问题，但社区还是决定在正式配置中添加sanitizer相关的预设，为开发者提供开箱即用的便利。