Azure-Samples/azure-search-openai-demo项目中的OpenAI可观测性优化实践

2025-06-01 16:39:55作者：苗圣禹Peter

A sample app for the Retrieval-Augmented Generation pattern running in Azure, using Azure AI Search for retrieval and Azure OpenAI large language models to power ChatGPT-style and Q&A experiences.

项目地址：https://gitcode.com/GitHub_Trending/az/azure-search-openai-demo

在Azure-Samples/azure-search-openai-demo项目中，开发团队近期对OpenAI服务的可观测性进行了重要优化。本文将详细介绍这一技术改进的背景、实现方案以及带来的价值提升。

背景与挑战

在AI应用开发中，对OpenAI服务调用的监控和追踪至关重要。项目最初采用OpenTelemetry结合httpx instrumentation的方案，虽然能够捕获HTTP调用的基本指标（如请求耗时、URL和主机信息），但存在明显的局限性：

只能获取基础的HTTP层面信息
缺乏OpenAI特有的元数据
对错误诊断的支持有限

这种方案无法满足开发者对AI服务调用的深度监控需求，特别是在处理复杂的聊天补全和嵌入操作时。

技术方案演进

团队评估并引入了opentelemetry-instrumentation-openai组件，该组件来自traceloop的openllmetry项目。这一改进带来了显著的优势：

增强的元数据捕获：现在可以获取聊天补全和嵌入调用的详细属性
专业化的监控维度：针对AI服务特有的指标进行了优化
更丰富的诊断信息：为问题排查提供了更多上下文

实现效果对比

改进前后的监控能力对比十分明显：

原始方案：

仅显示HTTP层面的基础信息
缺少OpenAI特有的操作细节
错误诊断能力有限

新方案：

聊天补全调用：显示模型、温度参数、最大token数等关键配置
嵌入操作：捕获输入文本长度、模型版本等专业指标
完整的调用链追踪：将AI服务调用与应用逻辑关联起来

现存挑战与优化方向

尽管新方案带来了显著改进，团队仍发现了一个待优化点：HTTP URL信息未被捕获为span属性。这意味着在监控视图中无法直接看到具体的OpenAI部署端点。这一问题已向上游项目提出改进建议。

实施建议

对于希望在类似项目中实施OpenAI可观测性的开发者，建议：

评估业务需求，确定必要的监控维度
选择合适的instrumentation方案
建立完整的指标收集和分析流程
持续优化监控配置

总结

通过这次改进，Azure-Samples/azure-search-openai-demo项目显著提升了OpenAI服务的可观测性水平。这一实践为AI应用开发中的服务监控提供了有价值的参考，特别是在Azure OpenAI和公共OpenAI服务集成场景下。未来随着上游组件的完善，项目的监控能力还将进一步提升。

azure-search-openai-demo

A sample app for the Retrieval-Augmented Generation pattern running in Azure, using Azure AI Search for retrieval and Azure OpenAI large language models to power ChatGPT-style and Q&A experiences.

项目地址：https://gitcode.com/GitHub_Trending/az/azure-search-openai-demo

登录后查看全文