LangChain项目中OpenAI流式调用时的令牌计数问题解析

2025-04-28 01:39:10作者：羿妍玫Ivan

LangChain是一个由大型语言模型 (LLM) 驱动的应用程序开发框架。。源项目地址：https://github.com/langchain-ai/langchain

项目地址：https://gitcode.com/GitHub_Trending/la/langchain

背景介绍

在使用LangChain框架与OpenAI API交互时，开发者经常需要跟踪API调用的令牌使用情况，以便进行成本控制和性能优化。LangChain提供了get_openai_callback工具来方便地统计令牌消耗，但在流式调用场景下，这一功能存在一些特殊注意事项。

问题现象

当开发者使用AzureChatOpenAI进行流式调用时，发现get_openai_callback返回的令牌计数始终为零。例如以下代码：

from langchain_community.callbacks.manager import get_openai_callback
from langchain_openai import AzureChatOpenAI

llm = AzureChatOpenAI(model=model, temperature=0)

with get_openai_callback() as cb:
    for chunk in llm.stream("Tell me a joke"):
        print(chunk.content, end="")
    print("\n")
    print(cb)

输出结果显示所有令牌计数均为零，这与预期不符。

技术原理

这个问题的根源在于OpenAI API的流式响应机制。默认情况下，流式响应不包含令牌使用信息，这是出于性能考虑的设计选择。OpenAI API只有在非流式调用时才会在响应中包含完整的令牌计数信息。

解决方案

针对这个问题，LangChain社区提供了两种解决方案：

使用stream_options参数：可以通过在模型初始化时传递model_kwargs={"stream_options": {"include_usage": True}}来显式要求API在流式响应中包含令牌使用信息。
使用stream_usage参数：在新版本的langchain-openai包中，AzureChatOpenAI直接支持了stream_usage=True参数，这是更简洁的解决方案。

最佳实践

对于使用LangChain与OpenAI API交互的开发者，建议：

始终更新到最新版本的langchain-openai包，以获得最佳功能和性能。
在流式调用场景下，明确指定需要令牌计数信息，无论是通过stream_options还是stream_usage参数。
对于成本敏感的应用，建议在开发阶段充分测试令牌计数功能，确保其按预期工作。

总结

LangChain框架提供了强大的工具来简化与OpenAI API的交互，但在特定场景下需要开发者了解底层机制才能充分发挥其功能。流式调用时的令牌计数就是一个典型例子，通过正确配置参数可以轻松解决这一问题。随着LangChain生态的不断发展，这类常见问题的解决方案也会越来越简洁直观。

LangChain是一个由大型语言模型 (LLM) 驱动的应用程序开发框架。。源项目地址：https://github.com/langchain-ai/langchain

项目地址：https://gitcode.com/GitHub_Trending/la/langchain

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

flutter_flutter

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

ohos_react_native

React Native鸿蒙化仓库

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。