LiteLLM项目中发现Haiku缓存读取的Token成本计算错误

2025-05-10 07:12:41作者：秋泉律Samson

Python SDK, Proxy Server (AI Gateway) to call 100+ LLM APIs in OpenAI (or native) format, with cost tracking, guardrails, loadbalancing and logging. [Bedrock, Azure, OpenAI, VertexAI, Cohere, Anthropic, Sagemaker, HuggingFace, VLLM, NVIDIA NIM]

项目地址：https://gitcode.com/GitHub_Trending/li/litellm

在开源项目LiteLLM的最新版本(v1.64.1)中，发现了一个关于Anthropic Claude-3-5-Haiku模型缓存读取Token成本计算的错误。这个错误会导致系统对使用缓存读取功能的成本估算偏高，影响用户对API使用成本的准确评估。

问题本质

根据代码调试日志显示，当前系统将Haiku模型的cache_read_input_token_cost(缓存读取输入Token成本)设置为8e-07(即0.0000008美元/Token)，而实际上这个值应该是8e-08(0.00000008美元/Token)。这意味着当前实现比正确值高出了10倍。

影响分析

成本估算偏差：系统会高估使用缓存读取功能的实际成本，可能导致用户对预算规划产生偏差。
功能使用决策：由于成本估算不准确，用户可能会不必要地避免使用缓存功能，尽管实际上它的成本效益更高。
计费准确性：如果这个参数也用于实际计费(而不仅仅是估算)，会导致用户被多收费。

技术细节

在LiteLLM的成本计算模块中，模型的各种成本参数存储在model_cost字典结构中。对于Claude-3-5-Haiku-20241022模型，当前配置如下：

{
    'input_cost_per_token': 8e-07,  # 常规输入Token成本
    'cache_creation_input_token_cost': 1e-06,  # 缓存创建时的输入Token成本
    'cache_read_input_token_cost': 8e-07  # 当前错误的缓存读取成本
}

正确的配置应该是将cache_read_input_token_cost改为8e-08，这样才符合Anthropic官方对Haiku模型缓存读取功能的定价策略。

解决方案

对于使用LiteLLM的开发者和运维人员，可以采取以下措施：

临时解决方案：在代码中手动覆盖这个参数值：

from litellm import model_cost
model_cost['claude-3-5-haiku-20241022']['cache_read_input_token_cost'] = 8e-08

等待官方修复：关注LiteLLM项目的更新，在下一个版本中应该会修复这个问题。
成本监控：在使用缓存功能时，建议与实际账单进行比对，确保成本计算准确。

最佳实践建议

定期检查模型参数：特别是当使用新模型或新功能时，应该验证成本参数是否符合预期。
实现成本告警：设置阈值告警，当估算成本与实际成本偏差较大时发出通知。
理解缓存机制：充分了解缓存创建和读取的不同成本结构，合理规划缓存策略。

这个问题虽然看似是一个简单的参数错误，但在实际生产环境中可能对成本控制产生显著影响。建议所有使用LiteLLM连接Anthropic Haiku模型的团队检查并修正这个参数。

litellm

项目地址：https://gitcode.com/GitHub_Trending/li/litellm

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。