LLM项目中的响应使用量统计功能解析

2025-05-31 17:59:14作者：董灵辛Dennis

在LLM项目的开发过程中，响应对象的使用量统计是一个重要功能。该项目提供了多种方式来获取模型调用的token消耗情况，这对于成本控制和性能优化都具有重要意义。

基本使用量属性

项目为响应对象设计了三个直接属性来获取token使用情况：

input_tokens：输入内容的token数量
output_tokens：输出内容的token数量
token_details：更详细的token使用信息

这些属性简单直观，但有一个重要限制：它们只能在响应完成时使用。这种设计是为了避免在流式响应过程中产生不一致的数据。

更灵活的usage()方法

为了提供更灵活的访问方式，项目还实现了usage()方法（同步）和await usage()（异步）。这些方法内部会调用_force()确保响应完成，然后返回一个包含使用量信息的数据类。

这个数据类包含三个主要属性：

.input：对应输入token数
.output：对应输出token数
.details：提供更详细的使用量明细

设计考量

这种双重访问方式的设计考虑到了不同场景的需求：

直接属性访问：简单场景下的快速访问
usage()方法：需要确保数据完整性的场景，特别是流式响应时

在内部实现上，项目通过set_usage()方法来统一设置这些使用量数据，确保数据一致性和正确性。这种设计模式使得使用量统计功能既保持了灵活性，又不失可靠性。

最佳实践建议

对于大多数应用场景，推荐使用usage()方法，因为：

它能正确处理各种响应状态
提供了更结构化的返回数据
在异步环境中也能良好工作

只有当确定响应已经完成时，才建议使用直接属性访问以获得更简洁的代码。

这个功能的设计体现了LLM项目在API易用性和可靠性之间的平衡考虑，为开发者提供了灵活而强大的工具来监控和管理模型调用的资源消耗。

llm

Access large language models from the command-line

项目地址：https://gitcode.com/gh_mirrors/llm/llm

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

433

392

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.67 K

985