Apache Arrow项目中R语言包在CRAN构建时的缓存文件问题分析

2025-05-18 18:33:14作者：丁柯新Fawn

问题背景

在Apache Arrow项目的持续集成过程中，发现使用Linux-as-CRAN配置的Ubuntu构建环境（包括ubuntu-next和ubuntu-release）在完成构建和测试后会残留两个目录：.cache和.local。这一现象在其他构建变体（如ubuntu-clang、clang20等）中并未出现。

问题表现

构建系统在检查构建环境时，会对比构建前后的文件系统状态。正常情况下，构建前后的文件系统应该保持一致，但实际观察到的差异如下：

构建前目录结构：

total 40K
drwx------ 1 root root 4.0K Mar  6 06:23 .
drwxr-xr-x 1 root root 4.0K Mar  9 00:33 ..
drwxr-xr-x 8 1001  118 4.0K Mar  6 03:18 .TinyTeX
-rw-r--r-- 1 root root 3.1K Oct 15  2021 .bashrc
-rw-r--r-- 1 root root  161 Jul  9  2019 .profile
-rw-r--r-- 1 root root  241 Mar  6 06:23 .wget-hsts
drwxr-xr-x 1 root root 4.0K Mar  6 06:23 R
drwxr-xr-x 2 root root 4.0K Mar  6 06:23 bin

构建后目录结构：

total 48K
drwx------ 1 root root 4.0K Mar  9 00:33 .
drwxr-xr-x 1 root root 4.0K Mar  9 00:33 ..
drwxr-xr-x 8 1001  118 4.0K Mar  6 03:18 .TinyTeX
-rw-r--r-- 1 root root 3.1K Oct 15  2021 .bashrc
drwxr-xr-x 4 root root 4.0K Mar  9 00:33 .cache
drwxr-xr-x 3 root root 4.0K Mar  9 00:33 .local
-rw-r--r-- 1 root root  161 Jul  9  2019 .profile
-rw-r--r-- 1 root root  241 Mar  6 06:23 .wget-hsts
drwxr-xr-x 1 root root 4.0K Mar  6 06:23 R
drwxr-xr-x 2 root root 4.0K Mar  6 06:23 bin

问题根源分析

经过调查发现，这个问题是由R语言包中的reticulate模块引起的。reticulate是R中用于与Python交互的接口包，在测试过程中会自动创建缓存目录结构：

/root/.cache
/root/.cache/R
/root/.cache/R/reticulate
/root/.cache/R/reticulate/uv
/root/.cache/R/reticulate/uv/python
...

这些缓存目录在测试完成后没有被自动清理，导致构建系统检测到文件系统状态不一致。

解决方案

针对这个问题，项目团队采取了以下解决方案：

在CRAN构建中跳过reticulate相关测试：由于CRAN构建环境有严格的清洁要求，且reticulate功能不是核心需求，可以在CRAN构建中跳过相关测试。
修改测试辅助函数：在测试辅助文件中添加skip_on_cran()指令，确保在CRAN构建时不执行会创建缓存文件的测试。