MNN-LLM项目中Token生成速度的统计方法解析

2025-07-10 10:52:34作者：霍妲思

在MNN-LLM项目中，统计模型生成token的速度是评估模型性能的重要指标。本文将详细介绍如何获取和解读这些性能数据。

Token生成速度的统计原理

MNN-LLM项目通过C++代码实现了对token生成速度的精确统计。核心统计逻辑位于Llm::print_speed()函数中，该函数计算并输出了多个关键性能指标：

时间统计：分别统计了prefill（预填充）阶段和decode（解码）阶段的耗时，单位精确到微秒
Token数量统计：记录了输入的prompt token数量和生成的output token数量
速度计算：基于时间和token数量，计算出各种速度指标

关键性能指标

项目提供了以下几类性能指标：

总token数：prompt token数与生成token数之和
各阶段耗时：
- 预填充时间(prefill time)
- 解码时间(decode time)
- 总时间(total time)
生成速度：
- 预填充速度(prefill speed)：prompt token数/预填充时间
- 解码速度(decode speed)：生成token数/解码时间
- 总速度(total speed)：总token数/总时间
- 聊天速度(chat speed)：生成token数/总时间

实际测试方法

在Android设备上，可以通过ADB命令直接运行demo程序获取这些性能数据：

确保设备已连接并启用ADB调试
执行以下命令：

adb shell "cd /data/local/tmp && export LD_LIBRARY_PATH=. && ./cli_demo ./Qwen2-1.5B-Instruct-MNN/config.json"

程序运行后会输出详细的性能统计信息

性能数据解读

输出的性能数据格式如下：

#################################
 total tokens num  = 85
prompt tokens num  = 32
output tokens num  = 53
  total time = 4.21 s
prefill time = 1.05 s
 decode time = 3.16 s
  total speed = 20.19 tok/s
prefill speed = 30.48 tok/s
 decode speed = 16.77 tok/s
   chat speed = 12.59 tok/s
##################################