Cortex项目中的GRPC GoAway错误分析与解决方案

2025-06-06 08:12:03作者：瞿蔚英Wynne

A horizontally scalable, highly available, multi-tenant, long term Prometheus.

项目地址：https://gitcode.com/gh_mirrors/cortex6/cortex

问题背景

在Cortex项目从1.14版本升级到1.16版本后，系统日志中开始频繁出现"Client received GoAway with error code ENHANCE_YOUR_CALM and debug data equal to ASCII 'too_many_pings'"的错误信息。虽然集群功能看似正常，但这些错误日志的出现频率高达每小时多次，引起了开发者的关注。

错误本质分析

这个错误源自GRPC协议层的通信问题，具体表现为客户端收到了服务器发送的GoAway帧，错误代码为ENHANCE_YOUR_CALM，并附带"too_many_pings"的调试信息。这类错误通常发生在GRPC连接管理过程中，当客户端发送的ping请求过于频繁时，服务器会主动断开连接并发送此错误。

深入技术原因

经过深入分析，发现问题的根源在于Cortex项目与etcd的交互方式。Cortex在etcd客户端配置中启用了PermitWithoutStream选项，该选项允许客户端在没有活跃流的情况下发送keepalive ping。然而，etcd服务器端并没有相应的配置选项来允许这种行为。

在GRPC-go 1.54.0版本后，服务器端对无流情况下的ping请求处理变得更加严格。当客户端配置了PermitWithoutStream=true而服务器端不支持时，服务器会发送GoAway帧并关闭连接，导致出现"too_many_pings"的错误。

解决方案验证

通过修改Cortex项目中etcd客户端的配置，将PermitWithoutStream选项设置为false，可以有效解决这个问题。实际测试表明，在24小时的运行周期内，修改后的版本不再出现相关错误日志。

最佳实践建议

对于使用Cortex项目的开发者，建议采取以下措施：

在升级到1.16或更高版本时，注意监控GRPC相关的错误日志
如果出现类似问题，可以考虑调整etcd客户端的PermitWithoutStream配置
保持etcd服务端和客户端的版本兼容性
定期检查GRPC相关依赖库的更新说明，了解行为变更

技术影响评估

虽然这些错误看起来令人担忧，但实际上它们主要影响的是连接保持机制，不会导致数据丢失或核心功能失效。系统仍然能够正常工作，只是连接重建的频率可能会增加。通过适当的配置调整，可以完全消除这些错误，使系统运行更加稳定。

A horizontally scalable, highly available, multi-tenant, long term Prometheus.

项目地址：https://gitcode.com/gh_mirrors/cortex6/cortex

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system

flutter_flutter

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统