Higress AI可观测性：ai-statistics插件扩展设计与实现

2025-06-09 20:05:57作者：魏侃纯Zoe

引言

在现代AI应用架构中，网关作为请求入口承担着关键角色。Higress作为一款云原生API网关，通过扩展ai-statistics插件能力，为AI大模型请求提供了完整的可观测性解决方案。本文将深入解析该插件的设计思路、实现原理以及应用价值。

ai-statistics插件的核心设计目标是实现对AI请求的全链路监控，主要关注三个维度的数据：

插件采用分层处理架构，主要包含以下几个关键处理阶段：

当用户请求进入ai-statistics插件时，系统会根据配置决定是否采集请求中的原始问题数据。这一阶段主要完成请求内容的初步解析和必要信息的提取。

当响应从ai-proxy插件返回时，插件会通过分析HTTP头中的自定义字段（如req-arrive-time和req-cost-time）计算各项性能指标。同时，从响应内容中提取token使用情况数据。

采集到的指标数据通过proxywasm.SetProperty方法注入到tracing span tag中。这种设计使得数据上报与具体的tracing后端解耦，具有良好的扩展性。

为满足不同场景下的监控需求，插件提供了灵活的标签扩展配置能力。每个自定义标签包含三个核心要素：

key：标签名称，将作为tracing系统中的标识
value_source：取值来源，支持四种类型：
- property：通过proxywasm.GetProperty获取
- requeset_header：从请求头获取
- request_body：从请求体获取（使用GJSON PATH语法）
- response_header：从响应头获取
value：具体取值路径或键名

这种设计使得用户可以根据实际业务需求，灵活配置需要监控的各类指标。

插件采集的数据可以通过Higress的全局配置与各类主流Tracing系统无缝集成。以Skywalking为例，只需在higress-config ConfigMap中添加相应配置即可启用链路跟踪功能。

配置项包括：

这种设计保证了插件可以适配不同的观测体系，包括Skywalking、Zipkin、OpenTelemetry等主流方案。

该扩展设计为AI应用带来了显著的可观测性提升：

Higress通过扩展ai-statistics插件，构建了一套完整的AI请求可观测体系。其设计既考虑了通用监控需求，又通过灵活的扩展机制满足了个性化场景。这种实现方式为AI应用的可观测性实践提供了有价值的参考方案，特别是在大规模AI服务部署场景下，能够有效提升系统的可维护性和可观测性。

登录后查看全文