解决GLM-4多GPU推理中的进程启动问题

2025-06-03 17:35:44作者：俞予舒Fleming

在使用GLM-4-9B-Chat模型进行多GPU推理时，开发者可能会遇到一个常见的错误："An attempt has been made to start a new process before the current process has finished its bootstrapping phase"。这个问题主要与vLLM框架的多进程初始化机制有关。

问题分析

当尝试在多个GPU上运行GLM-4模型时，vLLM框架会启动多个工作进程来实现张量并行计算。错误信息表明，系统在进程引导阶段就尝试启动新进程，这通常是由于Python多进程启动方式不正确导致的。

关键因素

tensor_parallel_size参数：这个参数必须与实际可用的GPU数量匹配。如果设置为2，但只提供了1个GPU，或者环境变量设置不正确，就会导致问题。
CUDA_VISIBLE_DEVICES设置：虽然代码中设置了环境变量，但需要确保这些GPU确实可用且未被其他进程占用。
多进程启动时机：Python的多进程模块要求在if __name__ == '__main__':保护块中启动子进程。

解决方案

调整tensor_parallel_size：确保该参数与实际的GPU数量一致。如果只有1个GPU可用，应该设置为1。
检查GPU可用性：使用nvidia-smi命令确认GPU是否空闲，并验证CUDA_VISIBLE_DEVICES设置是否正确。
代码结构调整：将模型加载和推理代码放在主程序保护块中：

if __name__ == '__main__':
    # 模型加载和推理代码

内存管理：适当调整gpu_memory_utilization参数，避免因内存不足导致的问题。

最佳实践

对于GLM-4-9B-Chat模型的多GPU部署，建议：

从较小的max_model_len开始测试，逐步增加
先使用单GPU验证模型能正常运行
确保系统/tmp目录有足够空间（错误信息中显示空间不足警告）
考虑使用enable_chunked_prefill和max_num_batched_tokens参数优化大模型推理

通过以上调整，可以解决多GPU推理中的进程启动问题，使GLM-4模型能够在分布式环境下稳定运行。

GLM-4

GLM-4 series: Open Multilingual Multimodal Chat LMs | 开源多语言多模态对话模型

项目地址：https://gitcode.com/gh_mirrors/gl/GLM-4

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

基于golang开发的网关。具有各种插件，可以自行扩展，即插即用。此外，它可以快速帮助企业管理API服务，提高API服务的稳定性和安全性。

rainbond

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理