lm-evaluation-harness项目中使用vLLM多GPU并行推理的注意事项

2025-05-26 13:56:08作者：宗隆裙

在使用lm-evaluation-harness项目进行大规模语言模型评估时，许多开发者会选择结合vLLM推理引擎来提升评估效率。然而，当尝试在多GPU环境下运行评估时，可能会遇到一些技术挑战。

问题现象

在vLLM 0.7.1版本中，当用户尝试使用张量并行（Tensor Parallelism, TP）技术进行多GPU推理时（即设置tensor_parallel_size>1），系统会抛出CUDA初始化错误。具体表现为运行时出现"RuntimeError: Cannot re-initialize CUDA in forked subprocess"的错误信息，提示需要在多进程环境中使用'spawn'启动方法。

问题根源

这个问题的本质在于Python多进程处理与CUDA环境的交互方式。默认情况下，Python使用'fork'方式创建子进程，这种方式会复制父进程的所有状态，包括CUDA上下文。然而，CUDA并不支持在forked进程中重新初始化，特别是在多GPU环境中。

解决方案

解决这个问题的关键在于正确设置多进程的启动方法。可以通过设置环境变量VLLM_WORKER_MULTIPROC_METHOD=spawn来强制vLLM使用'spawn'方式创建子进程，这种方式会重新初始化CUDA环境而不是复制父进程状态。

具体实现方式有两种：

在运行命令前设置环境变量：

export VLLM_WORKER_MULTIPROC_METHOD=spawn
python -m lm_eval --model=vllm ...

直接在运行命令中设置：

VLLM_WORKER_MULTIPROC_METHOD=spawn python -m lm_eval --model=vllm ...

技术背景

理解这个解决方案需要了解一些底层技术细节：

多进程启动方法：Python提供了三种多进程启动方式 - fork、spawn和forkserver。在CUDA环境中，只有spawn和forkserver是安全的。
CUDA上下文管理：CUDA驱动维护着每个进程的GPU状态，fork操作会导致子进程继承父进程的CUDA上下文，这在多GPU环境中特别容易出现问题。
vLLM的并行设计：vLLM在实现张量并行时使用了多进程架构，每个GPU对应一个工作进程，这些进程需要正确初始化各自的CUDA环境。