OpenCompass 评估工具在ChatMusician项目中的线程死锁问题分析与解决

2025-06-08 10:15:56作者：昌雅子Ethen

opencompass - OpenCompass是一个用于评估大型语言模型的工具，提供分布式评估、多样化评估范式和模块化设计。

项目地址：https://gitcode.com/gh_mirrors/op/opencompass

问题背景

在使用OpenCompass评估框架对ChatMusician音乐生成模型进行性能评估时，开发人员遇到了一个棘手的问题：评估过程会在启动后立即挂起，没有任何进度显示。通过分析发现，这实际上是一个线程死锁问题，与底层数学库的线程模型冲突有关。

现象描述

当运行OpenCompass评估脚本时，程序会在显示"Partitioned into 122 tasks"后停止响应，控制台输出停留在：

launch OpenICLInfer[ChatMusician/lukaemon_mmlu_college_biology] on GPU 0
0%| | 0/122 [00:00<?, ?it/s]

强制中断程序后，堆栈跟踪显示程序卡在Python线程模块的锁获取操作上，具体是在等待线程状态锁(_tstate_lock)时发生了阻塞。

根本原因分析

经过深入调查，发现问题源于Intel数学核心库(MKL)与GNU OpenMP库(libgomp)之间的线程模型不兼容。具体表现为：

线程模型冲突：MKL默认使用自己的线程调度机制，而Python的多线程环境依赖于GNU的OpenMP实现，两者在资源管理上产生了冲突。
环境特殊性：这个问题在Digital Ocean Paperspace平台上尤为明显，可能与平台特定的库配置有关。
死锁场景：当评估任务尝试并行执行时，不同线程模型对计算资源的争夺导致了死锁状态。

解决方案

解决这一问题的关键在于统一线程模型的使用。具体步骤如下：

设置环境变量：通过导出MKL_THREADING_LAYER=GNU强制MKL使用GNU的线程实现，避免与系统其他组件的冲突。
验证模型加载：确保基础模型能够正常加载和运行，使用简单的transformers测试脚本确认模型本身没有问题。
完整评估流程：
- 全新安装OpenCompass环境
- 复制ChatMusician的评估配置和数据集
- 安装必要的依赖项(如python-Levenshtein)
- 设置线程模型环境变量
- 执行评估命令

实施效果

应用上述解决方案后，评估流程能够在NVIDIA A6000(45GB)显卡上正常运行，完整评估耗时约5小时30分钟。这表明问题已得到有效解决，评估工作可以顺利进行。

技术启示

这一案例为我们提供了几个重要的技术启示：

数学库兼容性：在使用高性能数学库时，需要注意线程模型的兼容性问题，特别是在混合使用不同厂商的实现时。
环境配置检查：在云平台或特殊环境中部署时，应仔细检查基础库的版本和配置。
诊断方法：当遇到线程死锁问题时，可以通过强制中断获取堆栈信息，并关注底层库的交互情况。
评估流程验证：在正式运行大规模评估前，先使用小规模测试验证整个流程的可行性。

通过这次问题的解决，不仅修复了ChatMusician项目评估中的障碍，也为类似场景下的技术问题提供了有价值的参考方案。

opencompass - OpenCompass是一个用于评估大型语言模型的工具，提供分布式评估、多样化评估范式和模块化设计。

项目地址：https://gitcode.com/gh_mirrors/op/opencompass

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

昇腾LLM分布式训练框架

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统