Arroyo项目中使用GCS作为检查点后端时的API节流问题分析

2025-06-14 13:48:30作者：翟江哲Frasier

问题背景

在Kubernetes环境中部署Arroyo系统时，开发团队发现用户界面(UI)出现响应性问题。经过深入调查，发现问题根源在于API调用获取管道(pipeline)和作业(job)时出现超时现象。

问题现象

当使用Google Cloud Storage(GCS)作为检查点(checkpoint)后端时，控制器频繁调用GCP元数据服务器获取认证令牌。这导致了以下典型错误日志：

"object_store::gcp::credential::fetching token from metadata server"
"object_store::client::retry::Encountered transport error...operation timed out"

技术分析

认证机制问题

系统最初采用Kubernetes服务账户(SA)认证方式，这种方式需要频繁访问元数据服务器获取临时凭证。在高频率请求下，这种机制会导致：

认证请求堆积
元数据服务器响应延迟
最终导致API调用超时

解决方案尝试

开发团队尝试了多种解决方案：

减少元数据服务器调用：通过优化认证令牌的缓存机制，减少对元数据服务器的请求频率
改用服务账户密钥：通过GOOGLE_SERVICE_ACCOUNT_KEY环境变量直接提供凭证，避免实时获取令牌
尝试S3客户端兼容模式：试图通过AWS兼容接口访问GCS，但认证未能成功

深入问题

即使在v0.11.0版本中引入缓存机制后，仍观察到以下异常行为：

检查点操作时间突然从几秒延长到几分钟
管道页面返回结果不一致，每次刷新显示不同内容
所有管道同时出现性能下降

根本原因

经过深入调查，发现问题根源在于底层object_store库的实现：

认证令牌管理不够高效
重试机制可能导致请求堆积
对元数据服务器的依赖过高

解决方案

该问题最终在底层依赖库中得到修复，主要改进包括：

优化认证令牌的获取和缓存策略
改进错误处理和重试机制
减少对元数据服务器的依赖

经验总结

在云原生环境中使用外部存储服务时，需要特别注意：

认证机制的选择和优化
元数据服务的调用频率控制
客户端库的配置和调优
监控和诊断认证相关性能问题

这个问题展示了在分布式系统中，即使是一个看似简单的存储后端认证问题，也可能对整个系统的响应性产生重大影响。

arroyo

Distributed stream processing engine in Rust

项目地址：https://gitcode.com/gh_mirrors/ar/arroyo

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

178

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

TSX

410

130