MartenDB中Polly重试机制失效问题的分析与解决

2025-06-26 12:29:16作者：余洋婵Anita

问题背景

在使用MartenDB与PostgreSQL数据库交互时，特别是在Azure环境下使用PostgreSQL灵活服务器时，开发者发现当数据库维护事件发生时，系统会记录大量瞬态错误日志，但这些错误似乎没有被配置的Polly重试策略捕获和处理。这个问题在数据库连接出现故障时尤为明显。

问题重现

通过一个最小化示例可以重现这个问题：创建一个后台轮询MartenDB的服务，当本地运行的PostgreSQL数据库被暂停或停止时，配置的Polly重试策略并没有按预期工作。具体表现为：

查询操作在数据库不可用时抛出异常
配置的重试策略没有被触发
相同的重试策略如果直接包装ToListAsync()调用则可以正常工作

异常分析

当问题发生时，系统抛出的异常类型为MartenCommandException，其内部包含NpgsqlException和TimeoutException。异常堆栈显示这是一个读取数据时的超时问题，可能是由于尝试读取被锁定的行或数据库连接本身不可用导致的。

技术分析

通过调试MartenDB源代码，发现虽然QuerySession.ExecuteReaderAsync确实通过ResiliencePipeline被调用，但异常没有被正确捕获。进一步分析发现：

异常确实符合配置的重试条件（NpgsqlException和MartenCommandException）
相同的重试策略直接应用于ToListAsync()调用时可以正常工作
问题可能出在异常传播链上，某些中间层可能拦截或转换了异常

解决方案

问题的根本原因在于MartenDB内部对异常的转换处理。当数据库连接出现问题时，原始异常被MartenDB的异常转换机制处理，导致Polly无法识别到应该重试的异常类型。

修复方案包括：

修改异常处理逻辑，确保原始异常类型能够被Polly策略识别
在异常转换过程中保留原始异常信息
确保重试策略能够捕获所有可能的连接相关异常

实施建议

对于遇到类似问题的开发者，可以采取以下措施：

检查配置的重试策略是否覆盖所有可能的异常类型
考虑在应用层添加额外的重试逻辑作为补充
监控数据库连接状态，提前处理可能的连接问题
合理设置连接和命令超时时间

总结

MartenDB与Polly的集成在大多数情况下工作良好，但在处理数据库连接级别的故障时需要特别注意异常处理机制。通过理解异常传播路径和重试策略的触发条件，开发者可以构建更健壮的数据访问层，有效处理各种瞬态故障。

这个问题的解决不仅提高了MartenDB在云环境下的可靠性，也为处理类似数据库连接问题提供了参考模式。开发者应当根据实际应用场景调整重试策略的参数，如重试次数、间隔时间等，以达到最佳的系统稳定性和响应性平衡。

marten

.NET Transactional Document DB and Event Store on PostgreSQL

项目地址：https://gitcode.com/gh_mirrors/ma/marten

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

C++

415

298