Higress项目中多副本环境下的限流问题解析

2025-06-09 08:50:19作者：卓炯娓

Next-generation Cloud Native Gateway | 下一代云原生网关

项目地址：https://gitcode.com/GitHub_Trending/hi/higress

在微服务架构中，API网关的限流功能是保护后端服务不被突发流量击垮的重要机制。本文将深入分析Higress网关在多副本部署环境下遇到的限流问题及其解决方案。

问题现象

用户在使用Higress的key_rate_limit插件时发现了一个有趣的现象：当设置每分钟查询限制(query_per_minute)为2时，实际在第7次请求才会触发限流；当设置为3时，则在第10次请求才触发限流。这表明实际限流阈值与设置值之间存在约3倍的关系。

问题根源

经过排查，发现这种现象是由于Higress网关部署了3个副本导致的。当通过Service访问网关时，请求会被随机分配到不同的副本实例上。每个副本实例都独立维护自己的限流计数器，因此：

设置query_per_minute:2时，每个副本每分钟允许2次请求，3个副本合计允许约6次请求
设置query_per_minute:3时，每个副本每分钟允许3次请求，3个副本合计允许约9次请求

这就是为什么用户观察到限流阈值大约是设置值3倍的原因。

解决方案

针对多副本环境下的限流需求，Higress提供了两种解决方案：

单副本部署：将Higress网关部署为单副本，这样限流计数器就能准确工作。但这种方法牺牲了高可用性，不推荐在生产环境使用。
使用集群级限流插件：Higress提供了cluster-key-rate-limit插件，该插件通过Redis作为共享存储来维护全局计数器，可以确保在多副本环境下也能实现精确的全局限流。

集群级限流的特点

集群级限流插件具有以下优势：

精确控制整个集群的请求速率
支持基于各种维度的限流（IP、请求头、Consumer等）
通过Redis实现计数器共享，保证一致性
适合高可用部署场景

未来展望

根据开发团队的计划，未来Higress将会增强限流功能，包括支持对整个路由的全局限流，而不需要指定具体的限流条件。这将为某些特定场景下的流量控制提供更多灵活性。

最佳实践建议

在生产环境中部署Higress网关时，如果需要进行精确限流控制，建议：

评估业务对限流精度的要求
对于需要精确控制的场景，使用cluster-key-rate-limit插件
合理配置Redis集群以确保限流功能的高可用性
根据业务特点选择合适的限流维度（IP、用户等）

通过正确配置和使用Higress的限流功能，可以有效保护后端服务，提高系统的整体稳定性。

Next-generation Cloud Native Gateway | 下一代云原生网关

项目地址：https://gitcode.com/GitHub_Trending/hi/higress

登录后查看全文

项目优选

收起

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

昇腾LLM分布式训练框架

ohos_react_native

React Native鸿蒙化仓库

flutter_flutter

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优