Higress AI Token限流插件不生效问题分析与解决

2025-06-09 03:08:15作者：霍妲思

🤖 AI Gateway | AI Native API Gateway

项目地址：https://gitcode.com/GitHub_Trending/hi/higress

问题背景

在使用Higress网关代理大模型服务时，发现AI Token限流插件(ai-token-ratelimit)虽然能够正常连接Redis并设置初始Token值，但在实际请求过程中Token数量并未按预期减少，导致限流功能失效。

问题现象

用户部署了一个本地大模型服务，通过Higress网关进行代理访问。环境配置如下：

已启用ai-static插件，并能正常查询到route_upstream_model_input_token指标
使用ai-token-ratelimit插件配置了基于请求头的Token限流规则
每次请求时Redis中会生成对应的key/value记录，如higress-token-ratelimit:myrule:limit_by_header:test:abc=3
Prometheus监控显示token使用指标正常增长

但实际测试发现，虽然Redis中设置了初始Token值，但每次请求后Token数量并未减少，导致限流功能失效。

问题分析

通过排查发现，该问题与以下几个技术点相关：

插件配置验证：用户配置了基于请求头的Token限流规则，规则本身语法正确，且能正常连接Redis服务。
全局配置检查：用户已正确设置global.onlyPushRouteCluster=false参数，确保插件能正常访问Redis服务。
WASM插件版本：通过检查configdump中的WASM插件MD5码，发现实际运行的插件版本与最新开源版本不一致。

根本原因

问题根源在于Higress官方仓库中的最新AI Token限流插件镜像未及时同步到公开镜像仓库。导致用户部署的插件版本存在功能缺陷，无法正确解析和扣除请求消耗的Token数量。

解决方案

更新插件镜像：Higress团队已重新构建并推送最新版本的AI Token限流插件镜像到公开仓库。
重启插件：用户只需简单关闭再重新启用插件，即可自动拉取最新版本的插件镜像。
验证修复：更新后测试确认Token扣除功能恢复正常，限流策略按预期工作。

技术要点

WASM插件机制：Higress使用WebAssembly(WASM)技术实现插件功能，插件以独立模块形式运行，需要确保版本一致性。
Token限流原理：AI Token限流插件通过解析请求响应中的token使用量，并在Redis中维护剩余配额实现限流控制。
配置热更新：Higress支持插件配置的动态更新，无需重启服务即可应用变更。

最佳实践建议

版本管理：定期检查并更新Higress插件至最新稳定版本。
监控集成：结合Prometheus监控Token使用指标，验证限流效果。
测试验证：上线前充分测试限流规则，确认Redis中Token扣除行为符合预期。
日志分析：关注网关日志，及时发现并处理插件异常情况。

通过本次问题的排查和解决，不仅修复了特定功能缺陷，也为Higress用户提供了关于插件管理和限流配置的宝贵经验。

🤖 AI Gateway | AI Native API Gateway

项目地址：https://gitcode.com/GitHub_Trending/hi/higress

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

作为 Ascend for PyTorch 社区的核心组件，TorchNPU 是昇腾专为 PyTorch 打造的深度学习适配插件，使 PyTorch 框架能够直接调用昇腾 NPU，为开发者提供昇腾 AI 处理器的超强算力。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

deepin linux kernel

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook