Apache APISIX 指标过期特性缺陷分析与修复方案

2025-05-15 15:18:31作者：余洋婵Anita

The Cloud-Native API Gateway

项目地址：https://gitcode.com/GitHub_Trending/ap/apisix

问题背景

Apache APISIX 作为一款高性能的云原生API网关，其指标监控功能对于系统运维至关重要。在3.9.0版本中，引入了一个基于Nginx Lua Prometheus库的指标过期特性，该特性旨在自动清理长时间未被更新的指标数据。然而，这一特性在实际使用中被发现存在缺陷，会导致部分已过期并重新添加的指标在输出时丢失。

问题现象

当用户配置了指标过期时间后，会出现以下异常现象：

首次访问API接口时，相关指标正常记录
等待指标过期后（如设置的10秒过期时间）
再次访问相同API接口时，指标数据无法在/metrics端点中显示
但实际业务请求仍在正常处理

技术原理分析

问题的根源在于指标处理库中的缓存机制与过期机制的交互存在缺陷。具体表现为：

缓存机制：系统使用self.lookup缓存指标的完整名称映射，当缓存大小达到上限(self.lookup_size >= self.lookup_max_size)时会自动重置。
过期机制：首次添加指标时，系统会：
- 设置映射缓存
- 执行self._key_index:add()保存key索引关系
- 设置过期时间，导致一段时间后self._key_index.keys[i]变为null
问题触发点：当指标再次添加时：
- 由于缓存中存在映射，直接返回完整名称
- 不再执行self._key_index:add()
- 此时self._key_index.keys已丢失数据
- 最终导致指标输出时无法获取完整列表

影响范围

该缺陷影响所有使用以下配置的用户：

启用了prometheus插件
设置了指标过期时间(exptime)
使用Apache APISIX 3.9.0版本

解决方案

修复方案主要围绕缓存与过期机制的协调工作，核心思路包括：

缓存一致性保障：确保在指标重新添加时，无论缓存是否存在，都维护正确的索引关系。
过期处理优化：改进过期指标的重新注册流程，避免因缓存命中导致的索引丢失。
状态同步机制：建立缓存与索引之间的同步机制，确保两者状态一致。

最佳实践建议

对于使用指标过期功能的用户，建议：

监控策略：在关键业务指标上设置告警，及时发现指标丢失情况。
过期时间设置：根据业务实际需求合理设置过期时间，避免过短导致频繁重建。
版本升级：及时关注官方修复版本，升级到包含该问题修复的版本。

总结

指标监控是API网关可观测性的重要组成部分。Apache APISIX社区对此问题的快速响应和修复，体现了对产品质量的严格要求和持续改进的承诺。通过深入分析此类问题，开发者可以更好地理解系统内部机制，构建更健壮的监控体系。

The Cloud-Native API Gateway

项目地址：https://gitcode.com/GitHub_Trending/ap/apisix

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理

基于golang开发的网关。具有各种插件，可以自行扩展，即插即用。此外，它可以快速帮助企业管理API服务，提高API服务的稳定性和安全性。