首页
/ Apache APISIX Prometheus 指标丢失问题分析与解决方案

Apache APISIX Prometheus 指标丢失问题分析与解决方案

2025-05-15 04:02:56作者:韦蓉瑛

问题现象

在 Apache APISIX 3.8.1 版本中,用户发现 Prometheus 监控指标在大约3天后会突然消失,必须重启 APISIX Pod 才能恢复。这一问题在从 APISIX 3.2 升级到 3.8 版本后出现。

根本原因分析

通过错误日志可以发现问题根源在于共享内存空间不足:

[lua] prometheus_resty_counter.lua:39: increasing counter in shdict: lru eviction: key=http_latency_bucket{...}
[lua] prometheus_resty_counter.lua:39: increasing counter in shdict: lru eviction: key=bandwidth{...}

这些错误表明:

  1. 随着路由和节点数量的增加,http_latencybandwidth等指标生成了大量键值对
  2. 默认的共享内存空间(10MiB)无法容纳这些指标数据
  3. 系统触发了LRU(最近最少使用)淘汰机制,导致部分指标被清除

解决方案

方案一:增加共享内存空间

最直接的解决方案是扩大prometheus-metrics共享字典的大小。在APISIX配置中:

nginx_config:
  http:
    lua_shared_dict:
      prometheus-metrics: 100m  # 从默认10MiB增加到100MiB

对于使用Helm部署的情况,需要注意默认values.yaml中可能没有直接暴露这个配置项,需要手动修改APISIX的ConfigMap。

方案二:优化指标存储

对于长期运行的APISIX实例,还可以考虑:

  1. 精简不必要的标签维度,减少指标基数
  2. 调整Prometheus抓取间隔,平衡实时性和资源消耗
  3. 定期归档或聚合历史指标数据

最佳实践建议

  1. 容量规划:根据业务规模和路由数量预估共享内存需求,建议初始值不低于50MiB
  2. 监控预警:设置apisix_shared_dict_free_space_bytes告警,当剩余空间低于20%时及时处理
  3. 版本升级:从3.2升级到3.8时,特别注意监控相关配置的变更
  4. 定期维护:对于长期运行的实例,建立定期重启机制

总结

APISIX的Prometheus指标丢失问题通常源于共享内存空间不足。通过合理配置lua_shared_dict大小,并结合业务特点优化指标收集策略,可以有效解决这一问题。对于生产环境,建议在部署前进行充分的容量测试,确保资源配置满足业务需求。

登录后查看全文
热门项目推荐
相关项目推荐