LMDeploy项目中Qwen2.5-7B模型Winogrande评测问题分析

2025-06-04 08:33:48作者：郁楠烈Hubert

LMDeploy is a toolkit for compressing, deploying, and serving LLMs.

项目地址：https://gitcode.com/gh_mirrors/lm/lmdeploy

在LMDeploy项目中使用Qwen2.5-7B模型进行Winogrande数据集评测时，开发人员遇到了一个典型的技术问题。这个问题涉及到模型推理、日志似然计算以及数据类型处理等多个技术环节。

问题的核心表现是，在使用lmdeploy后端和opencompass评测框架对Qwen2.5-7B模型进行Winogrande数据集评测时，系统抛出了类型错误："TypeError: unsupported operand type(s) for -: 'list' and 'list'"。这个错误发生在计算对数似然的过程中，具体是在执行logit_sum和logit_part两个列表相减的操作时。

从技术实现层面来看，这个问题源于opencompass框架中turbomind.py文件的get_loglikelihood方法。该方法在处理模型输出时，预期接收的是数值类型的数据，但实际却得到了列表类型的数据。这种类型不匹配导致了运算失败。

深入分析这个问题，我们可以理解到几个关键点：

评测流程中，模型需要计算两个选项的对数似然值来比较哪个选项更可能正确
当前实现中，模型返回的对数似然值被错误地封装成了列表形式
框架期望直接处理数值类型的数据进行减法运算

这个问题实际上反映了深度学习模型评测中的一个常见挑战：模型输出格式与评测框架预期格式的一致性。在复杂的评测流程中，数据类型的转换和传递需要特别小心。

从解决方案来看，这个问题已经在opencompass项目的后续版本中得到修复。修复的核心思路是确保模型返回的对数似然值是直接的数值类型，而不是列表形式。这种修复保持了评测逻辑的简洁性，同时也确保了类型安全。

对于使用LMDeploy和opencompass进行模型评测的开发者来说，这个案例提供了几个有价值的经验：

在集成不同组件时，要特别注意接口数据类型的匹配
对数似然计算这类核心评测逻辑需要严格的类型检查
当遇到类似类型错误时，可以检查模型输出和框架预期的数据结构是否一致

这个问题虽然看似简单，但它揭示了深度学习评测系统中一个重要的设计考量：如何在保持灵活性的同时确保类型安全。这也是为什么现代深度学习框架都越来越重视类型系统和接口规范的原因。

LMDeploy is a toolkit for compressing, deploying, and serving LLMs.

项目地址：https://gitcode.com/gh_mirrors/lm/lmdeploy

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system

flutter_flutter

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统