Deepscaler项目中的ActorDiedError问题分析与解决方案

2025-06-26 03:29:25作者：毕习沙Eudora

问题背景

在Deepscaler项目运行过程中，用户在执行run_deepscaler_1.5b_8k.sh脚本时遇到了Ray框架的ActorDiedError异常。该问题表现为Actor进程意外终止，导致任务无法完成。错误日志显示这是一个系统级错误(SYSTEM_ERROR)，可能由内存不足(OOM killer)、强制终止或意外崩溃引起。

错误现象分析

从错误日志中可以观察到几个关键现象：

进程收到SIGFPE信号(浮点异常)，发生在CPU 160上
调用栈显示问题出现在vLLM的vocab_parallel_embedding.py模块中
内存使用情况显示初始化缓存后内存占用显著增加
错误提示Flash Attention 2.0仅支持torch.float16和torch.bfloat16数据类型

根本原因

经过深入分析，该问题与NVIDIA H20 GPU硬件环境下的CUDA库版本不兼容有关。具体表现为：

NVIDIA H20 GPU对CUDA库版本有特殊要求
默认安装的nvidia-cublas-cu12版本(12.1.3.1)与H20不兼容
浮点运算异常可能是由于底层CUDA库不匹配导致的

解决方案

针对这一问题，推荐以下解决方案：

升级nvidia-cublas-cu12到12.3.4.1版本：

pip install nvidia-cublas-cu12==12.3.4.1

确保环境一致性：

检查CUDA版本是否为12.3或更高
验证torch版本与CUDA版本的兼容性
确认vLLM版本为0.6.3

对于使用torch 2.4.0的用户，由于版本依赖限制，可能需要：

降级torch到兼容版本
或等待nvidia-cublas-cu12的更新版本

预防措施

为避免类似问题，建议：

在H20 GPU环境中特别注意CUDA库版本
部署前进行完整的环境兼容性测试
监控GPU内存使用情况，防止OOM
保持关键库(vLLM、Ray等)版本更新

总结

Deepscaler项目在H20 GPU环境下运行时可能遇到ActorDiedError问题，这通常与CUDA库版本不兼容有关。通过升级nvidia-cublas-cu12到特定版本可以有效解决。环境配置是深度学习项目稳定运行的关键因素，特别是在使用新型硬件时更需注意版本兼容性。

rllm

Democratizing Reinforcement Learning for LLMs

项目地址：https://gitcode.com/gh_mirrors/dee/rllm

登录后查看全文

项目优选

收起

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

Ascend Extension for PyTorch

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

455

438

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

454

5.07 K