LMDeploy项目中获取InternVL2-8B模型特定token概率的技术实现

2025-06-04 21:19:50作者：傅爽业Veleda

LMDeploy is a toolkit for compressing, deploying, and serving LLMs.

项目地址：https://gitcode.com/gh_mirrors/lm/lmdeploy

在基于LMDeploy项目部署大语言模型时，开发者常需要获取模型对特定token（如字母A-Z）的预测概率分布。本文以InternVL2-8B模型为例，深入探讨两种不同的技术实现方案。

原生PyTorch实现方案

原生PyTorch方案通过直接调用模型接口可以完整获取vocabulary级别的概率分布。关键技术点包括：

目标token索引准备：首先需要将目标字符（A-Z）转换为模型tokenizer对应的token ID。由于tokenizer可能对单个字符进行特殊编码，需要特别注意获取正确的token索引。
生成配置设定：关键配置参数包括：
- output_scores=True 确保返回分数张量
- return_dict_in_generate=True 获取结构化输出
- 禁用采样（do_sample=False）保证确定性结果
概率后处理：对原始logits应用softmax转换为概率分布，并提取目标token对应的概率值。

这种方案的优点是能够获取完整的vocabulary分布，但需要直接操作模型实例，在部署环境中可能不够便捷。

LMDeploy Pipeline方案

LMDeploy的pipeline接口提供了更便捷的部署方案，但目前存在一些限制：

当前限制：标准生成接口无法直接返回完整vocabulary的logits，只能通过logprobs参数获取top-k概率。
替代方案：可以采用两阶段计算的方式：
- 第一阶段正常生成文本，记录输出的token序列
- 第二阶段使用get_logits方法逐步计算每个生成token时的完整logits
技术细节：
- 需要维护输入的embedding状态
- 通过逐步扩展token序列来模拟生成过程
- 可以设置计算范围优化性能

这种方案虽然能间接达到目的，但需要重复计算且无法并发处理，适合对延迟不敏感的场景。

方案对比与选型建议

对于不同场景，建议如下：

研发调试场景：优先使用原生PyTorch方案，可以获取完整概率信息，便于分析模型行为。
生产部署场景：若只需top-k概率，使用pipeline的logprobs参数；若必须完整分布，可采用两阶段方案，但要注意性能损耗。
未来优化方向：可以期待LMDeploy未来版本增加直接输出完整logits的功能，这将大大简化此类需求实现。

理解这些技术细节有助于开发者更好地利用LMDeploy项目部署视觉-语言大模型，并在需要时获取模型的详细预测信息。

LMDeploy is a toolkit for compressing, deploying, and serving LLMs.

项目地址：https://gitcode.com/gh_mirrors/lm/lmdeploy

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

deepin linux kernel

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

flutter_flutter

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统