Ray 2.44与vLLM v1版本在流水线并行中的内存访问问题分析

2025-05-03 11:29:22作者：劳婵绚Shirley

ray-project/ray: 是一个分布式计算框架，它没有使用数据库。适合用于大规模数据处理和机器学习任务的开发和实现，特别是对于需要使用分布式计算框架的场景。特点是分布式计算框架、无数据库。

项目地址：https://gitcode.com/gh_mirrors/ra/ray

问题背景

在深度学习推理框架vLLM的最新版本中，当使用Ray 2.44作为分布式执行后端并启用流水线并行（Pipeline Parallelism）时，出现了CUDA非法内存访问的错误。这个问题在Ray 2.43版本中并不存在，表明这是Ray 2.44引入的一个兼容性问题。

问题现象

当用户尝试在Ray 2.44环境下运行vLLM v1版本的流水线并行（pipeline_parallel_size>1）时，系统会抛出RuntimeError，提示"CUDA error: an illegal memory access was encountered"。错误发生在模型执行阶段，具体是在GPU模型运行器尝试复制中间张量时。

技术分析

根本原因

经过技术团队调查，这个问题源于Ray 2.44版本中对CUDA内存管理机制的改动。在流水线并行场景下，不同阶段的模型分布在不同的GPU上执行，Ray 2.44的改动导致在某些情况下：

内存访问越界：GPU内核尝试访问未分配或已释放的内存区域
异步错误报告：CUDA错误可能被延迟报告，使得错误堆栈不一定准确指向问题源头
设备端断言：默认情况下未启用设备端断言，增加了调试难度

影响范围

该问题影响所有使用以下配置的用户：

使用vLLM v1版本
启用流水线并行（pipeline_parallel_size>1）
使用Ray 2.44作为分布式执行后端
在NVIDIA GPU上运行（测试环境为L4/L40S）

解决方案

临时解决方案

对于急需使用流水线并行的用户，建议：

降级到Ray 2.43版本
在等待官方修复期间，可以设置环境变量CUDA_LAUNCH_BLOCKING=1来获取更准确的错误堆栈

长期解决方案

Ray开发团队已经确认问题根源，并计划在下一个版本中修复。vLLM团队也采取了预防措施，在依赖中限制了Ray的版本范围，避免用户意外升级到有问题的版本。

最佳实践建议

在生产环境中部署前，务必进行充分的版本兼容性测试
对于关键业务系统，考虑固定所有依赖的版本号
启用CUDA设备端断言（通过TORCH_USE_CUDA_DSA）可以帮助早期发现问题
保持对框架更新日志的关注，及时了解已知问题和修复情况

总结

这次事件凸显了深度学习框架生态系统中版本依赖管理的重要性。作为技术专家，我们建议用户在升级关键组件时采取谨慎态度，特别是在生产环境中。Ray和vLLM团队正在积极合作解决这个问题，预计很快会提供稳定的修复方案。

ray-project/ray: 是一个分布式计算框架，它没有使用数据库。适合用于大规模数据处理和机器学习任务的开发和实现，特别是对于需要使用分布式计算框架的场景。特点是分布式计算框架、无数据库。

项目地址：https://gitcode.com/gh_mirrors/ra/ray

登录后查看全文

最新内容推荐

Python开发者的macOS终极指南：VSCode安装配置全攻略基于Matlab的等几何分析IGA软件包：工程计算与几何建模的完美融合深入解析Windows内核模式驱动管理器：系统驱动管理的终极利器基恩士LJ-X8000A开发版SDK样本程序全面指南 - 工业激光轮廓仪开发利器咖啡豆识别数据集：AI目标检测在咖啡质量控制中的革命性应用 STM32到GD32项目移植完全指南：从兼容性到实战技巧瀚高迁移工具migration-4.1.4：企业级数据库迁移的智能解决方案昆仑通态MCGS与台达VFD-M变频器通讯程序详解：工业自动化控制完美解决方案 PADS元器件位号居中脚本：提升PCB设计效率的自动化利器 MQTT客户端软件源代码：物联网开发的强大工具与最佳实践指南

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

cangjie_compiler

仓颉编译器源码及 cjdb 调试工具。

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

ohos_react_native

React Native鸿蒙化仓库

cangjie_runtime

仓颉编程语言运行时与标准库。