Llama-recipes项目中FSDP微调时的参数保存竞态问题分析

2025-05-13 05:48:27作者：丁柯新Fawn

问题背景

在使用Llama-recipes项目进行FSDP(完全分片数据并行)微调时，开发者发现了一个关于参数保存的竞态条件问题。当多个进程同时尝试保存训练参数时，会出现文件系统冲突，导致程序异常终止。

在分布式训练环境下，特别是使用FSDP策略时，每个rank(进程)都会独立执行保存训练参数的函数。当前实现中存在以下关键代码段：

if not os.path.exists(save_dir):
    os.makedirs(save_dir)

这段代码在每个rank上都会执行，导致多个进程同时尝试创建相同的目录结构。虽然Python的os.makedirs()函数在单进程环境下是安全的，但在多进程并发环境下就会出现问题。

当多个rank同时执行这段代码时，可能会出现以下情况：

针对这个问题，开发者提出了三种可能的解决方案：

在分布式训练中，I/O操作应当遵循以下原则：

最终采用的解决方案是第一种方法，即只在rank 0上执行参数保存操作。这种修改简单有效，且符合PyTorch分布式训练的常规模式。修改后的代码逻辑更清晰，也避免了潜在的竞态条件。

在Llama-recipes项目的FSDP微调过程中，参数保存的竞态条件问题是一个典型的分布式编程挑战。通过限制I/O操作到主进程，不仅解决了当前问题，也使代码更符合分布式系统的最佳实践。这个案例提醒我们，在编写分布式训练代码时，需要特别注意共享资源的访问控制。

登录后查看全文