OpenCompass 评估 OpenAI 兼容服务器时出现挂起问题的分析与解决

2025-06-08 07:42:49作者：戚魁泉Nursing

OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.

项目地址：https://gitcode.com/gh_mirrors/op/opencompass

问题背景

在使用 OpenCompass 评估工具对 OpenAI 兼容的 API 服务器进行模型评估时，用户遇到了程序长时间挂起的问题。具体表现为执行评估命令后，程序在初始化阶段停滞不前，日志显示无法自动映射模型名称到 tokeniser，并提示需要等待较长时间才能继续运行。

环境配置

问题出现在以下环境中：

操作系统：macOS (Darwin)
Python 版本：3.10.14
OpenCompass 版本：0.3.2.post1+070a92b
PyTorch 版本：2.4.1
CUDA 不可用（在 macOS 环境下）

问题复现

用户使用了 OpenCompass 的官方示例配置 eval_api_demo.py 进行评估，配置中定义了一个 OpenAI 兼容的模型端点（glm4-9b-chat），并通过环境变量设置了 API 的基础 URL 和密钥。

执行评估命令后，程序在初始化阶段停滞，日志显示以下关键信息：

无法自动将模型名称 "glm4-9b-chat" 映射到 tokeniser
程序似乎挂起，但实际上需要等待较长时间（超过10分钟）才能继续运行

技术分析

1. Tokeniser 映射问题

OpenCompass 使用 tiktoken 库来处理 OpenAI 兼容模型的 token 计数。当评估非标准 OpenAI 模型（如 glm4-9b-chat）时，tiktoken 无法自动识别模型名称，导致警告信息。这实际上是预期行为，不会影响评估功能，但会触发警告。

2. 长时间挂起现象

程序看似挂起，实际上是以下原因造成的：

首次连接 API 服务器时需要进行握手和初始化
模型加载可能需要较长时间，特别是当服务器资源有限时
默认的查询频率限制（query_per_second=1）会降低评估速度
批量大小（batch_size=8）可能导致服务器处理时间延长

解决方案

1. 等待程序完成

最简单的解决方案是耐心等待。根据用户反馈，程序实际上会在10多分钟后继续运行完成评估任务。

2. 优化配置参数

可以调整以下参数来改善评估体验：

models = [
    dict(
        abbr='glm4-9b-chat',
        type=OpenAI,
        path='glm4-9b-chat',
        key='ENV',
        meta_template=api_meta_template,
        query_per_second=2,  # 适当提高查询频率
        max_out_len=2048,
        max_seq_len=4096,
        batch_size=4  # 减小批量大小
    )
]

3. 明确指定 tokeniser

虽然不影响功能，但可以消除警告信息：

from tiktoken import get_encoding

# 在模型配置中添加
tokenizer = get_encoding('cl100k_base')  # 使用兼容的编码

最佳实践建议

监控服务器状态：在评估期间监控 API 服务器的资源使用情况
日志级别调整：使用更详细的日志级别（如 DEBUG）获取更多运行信息
分阶段评估：对于大型评估任务，考虑分阶段执行
性能基准测试：先进行小规模测试，了解服务器处理能力

总结

OpenCompass 评估 OpenAI 兼容服务器时的挂起现象主要是由于服务器初始化和处理延迟造成的，而非真正的程序错误。通过合理配置评估参数和了解系统行为，用户可以顺利完成评估任务。对于自定义模型名称的 tokeniser 警告，可以忽略或通过明确指定编码方式来解决。

在实际生产环境中，建议预先进行小规模测试以了解系统性能特征，并根据测试结果调整评估策略和参数配置，以获得最佳的评估效率和资源利用率。

opencompass

OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.

项目地址：https://gitcode.com/gh_mirrors/op/opencompass

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

434

395

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

atomcode

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.68 K

990