Envoy Gateway中扩展服务器故障恢复时的配置同步问题分析

2025-07-07 21:51:57作者：凤尚柏Louis

Manages Envoy Proxy as a Standalone or Kubernetes-based Application Gateway

项目地址：https://gitcode.com/gh_mirrors/gate/gateway

在Envoy Gateway项目中，当扩展服务器(extension server)处于故障关闭(fail closed)模式时，系统会在监听器(Listener)级别将HTTP连接管理器(HCM)的RDS引用替换为内联的error_vhost路由配置。这一机制虽然能够确保在扩展服务器不可用时系统仍能运行，但却带来了一个潜在的配置同步问题。

问题背景

当Envoy Gateway从故障中恢复并创建新的快照时，代理(proxies)会请求所有的HTTP路由配置(HTTPRouteConfigs)，因为HCM的RDS引用已恢复为原始监听器配置。然而，在某些情况下，XDS快照只会返回实际发生变化的资源，导致其他RDS获取请求超时。

问题复现步骤

设置一个带有两个不同域名HTTP路由的TLS监听器
创建一个扩展服务器，使其能够按需在PostTranslate钩子中返回"服务不可用"错误
通过修改HTTP路由1触发翻译过程，同时使扩展服务器返回失败：此时所有HCM都使用error_vhost
再次修改HTTP路由1触发翻译过程，但这次扩展服务器不返回失败
观察到只有HTTP路由1恢复正常，而HTTP路由2的流量仍然返回404错误

根本原因分析

问题的根源在于路由实际上并没有从快照中移除，只是移除了对它们的引用。因此，缓存系统无法识别出需要同步到代理的"增量"变化。当系统恢复时，代理请求所有路由配置，但缓存只返回实际发生变化的资源，导致其他路由配置请求超时。

解决方案

为了解决这个问题，可以修改路由清除逻辑，将现有的RDS更新为使用error_vhost，而不是创建额外的HCM内联路由配置。这种方法可以确保路由配置始终存在于快照中，使缓存系统能够正确识别需要同步的变化。

后续发展

值得注意的是，在Envoy Gateway的后续版本中，扩展服务器已经不再使用这种行为，相关问题已在代码变更中得到解决。这一改进使得系统在扩展服务器故障恢复时能够更可靠地同步所有路由配置。

技术启示

这个案例展示了在分布式系统中处理故障恢复时需要考虑的配置同步问题。在设计类似系统时，开发人员应该：

确保故障恢复路径能够完整重建系统状态
考虑缓存一致性对系统行为的影响
设计明确的增量更新机制，避免部分配置丢失
对关键路径进行充分的故障场景测试

通过这个问题的分析和解决，Envoy Gateway在扩展服务器故障处理方面变得更加健壮，为构建高可用的服务网格基础设施提供了更好的支持。

Manages Envoy Proxy as a Standalone or Kubernetes-based Application Gateway

项目地址：https://gitcode.com/gh_mirrors/gate/gateway

登录后查看全文

热门内容推荐

1 【亲测免费】开源项目 `build-your-own-x` 使用指南 2 【亲测免费】探索科技之旅：《Build Your Own X》项目详解 3 GitHub_Trending/bu/build-your-own-x自动化：CI/CD流程在自制项目中的应用 4 从零打造智能家居系统：用build-your-own-x实现家庭自动化

最新内容推荐

Degrees of Lewdity中文汉化终极指南：零基础玩家必看的完整教程 Unity游戏翻译神器：XUnity Auto Translator 完整使用指南 PythonWin7终极指南：在Windows 7上轻松安装Python 3.9+终极macOS键盘定制指南：用Karabiner-Elements提升10倍效率 Pandas数据分析实战指南：从零基础到数据处理高手 Qwen3-235B-FP8震撼升级：256K上下文+22B激活参数 7步搞定机械键盘PCB设计：从零开始打造你的专属键盘终极WeMod专业版解锁指南：3步免费获取完整高级功能 DeepSeek-R1-Distill-Qwen-32B技术揭秘：小模型如何实现大模型性能突破音频修复终极指南：让每一段受损声音重获新生

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

flutter_flutter

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理