XTuner在Slurm集群上运行时的文件锁问题解决方案

2025-06-13 01:19:48作者：蔡丛锟

问题背景

在使用XTuner项目进行大规模模型训练时，许多研究人员会选择在Slurm集群上运行任务。然而，当XTuner与Hugging Face的datasets库结合使用时，可能会遇到一个典型的文件锁问题，表现为"FileSystem does not appear to support flock"错误。

问题本质分析

这个问题的根源在于某些分布式文件系统（如Slurm集群常用的Lustre、GPFS等）不完全支持传统的Unix文件锁定机制（flock）。当XTuner尝试通过datasets库加载数据集时，后者会默认使用文件锁来确保数据缓存的安全访问，但在不支持flock的文件系统上就会抛出异常。

技术细节

文件锁机制：在Unix/Linux系统中，flock是一种常见的文件锁定机制，用于进程间同步。但在分布式文件系统中，这种机制可能无法正常工作。
Hugging Face datasets的设计：该库使用文件锁来管理数据集的缓存和并发访问，确保在多进程环境下数据的一致性。
XTuner的依赖关系：XTuner依赖于datasets库来处理各种数据集格式，当底层文件系统不支持flock时，就会导致整个训练流程中断。

解决方案

针对这一问题，有以下几种可行的解决方法：

方法一：使用软文件锁替代

修改环境变量，强制datasets库使用软文件锁（SoftFileLock）而非系统原生文件锁：

export HF_DATASETS_FS_USE_LOCK=0

这种方法简单有效，适合大多数情况。软文件锁通过创建额外的锁定文件来实现同步，不依赖系统级的flock机制。

方法二：调整数据集缓存位置

将数据集缓存目录设置到本地文件系统（如节点的本地磁盘）而非共享文件系统：

export HF_DATASETS_CACHE=/tmp/hf_datasets

本地文件系统通常完全支持flock机制，可以避免这个问题。

方法三：预先下载数据集

在任务开始前手动下载所需数据集到本地，避免运行时自动下载和锁定：

from datasets import load_dataset
dataset = load_dataset("your_dataset", cache_dir="local_path")

实施建议

对于Slurm作业，建议在提交脚本中添加环境变量设置：

#!/bin/bash
#SBATCH ...
export HF_DATASETS_FS_USE_LOCK=0
export HF_DATASETS_CACHE=/tmp/hf_datasets_$SLURM_JOBID
python train_script.py

对于长期运行的实验，建议将方法一和方法二结合使用，既确保锁机制正常工作，又提高I/O性能。
在XTuner配置文件中，也可以显式指定数据集缓存路径：

# 在config.py中
dataset_settings = {
    'cache_dir': 'local_cache_path',
    # 其他参数...
}

注意事项

使用软文件锁时，需要确保所有进程都能访问相同的文件系统路径，否则锁机制会失效。
在共享计算环境中，要注意清理临时缓存目录，避免占用过多存储空间。
某些极端情况下，软文件锁的性能可能略低于系统原生锁，但对于大多数深度学习训练任务来说，这种差异可以忽略。

通过以上方法，研究人员可以顺利在Slurm集群上运行XTuner项目，充分利用分布式计算资源进行大规模模型训练。

xtuner

A Next-Generation Training Engine Built for Ultra-Large MoE Models

项目地址：https://gitcode.com/GitHub_Trending/xt/xtuner

登录后查看全文