lakeFS项目中GC模块的并发提交查找问题分析与解决方案

2025-06-12 06:25:30作者：沈韬淼Beryl

lakeFS - Data version control for your data lake | Git for data

项目地址：https://gitcode.com/gh_mirrors/la/lakeFS

问题背景

在lakeFS项目的垃圾回收(GC)模块中，开发团队发现了一个间歇性出现的错误。当系统尝试获取垃圾回收相关的提交记录时，偶尔会报出"commit not found"的错误。这个错误并非持续出现，而是表现出明显的偶发性特征，通过重试操作往往能够恢复正常。

问题现象

具体表现为：当GC模块执行GetGarbageCollectionCommits函数时，在处理起始点提交(startingPoint)的过程中，系统会构建一个提交映射表(commitsMap)。然而在某些情况下，明明存在的提交记录却无法在这个映射表中找到，导致函数返回"commit not found"错误。

根本原因分析

经过深入排查，发现这是一个典型的并发读写问题。问题的根源在于GC准备过程中的两个关键操作之间存在时间差：

GC线程首先开始准备GC操作，并列出当前所有的提交记录
在列出提交的同时，另一个线程可能正在添加新的提交记录

这种情况下就会出现竞态条件：新添加的提交记录可能不会被包含在GC线程最初构建的提交映射表中，但当GC线程后续处理起始点提交时，却会尝试查找这些新添加的记录。

技术细节

在GC模块的实现中，GetGarbageCollectionCommits函数的工作流程如下：

首先通过迭代器获取所有起始点提交
对于每个起始点提交，尝试在预先构建的提交映射表中查找对应的提交节点
如果查找失败，则返回错误

问题就出在第2步：当新提交在构建映射表之后被添加，但在处理起始点之前，就会导致查找失败。这种竞态条件解释了为什么错误是间歇性出现的——只有当特定时间序列的操作发生时才会触发。

解决方案

针对这个问题，我们采取了以下改进措施：

增强提交查找的健壮性：当在预构建的映射表中找不到提交记录时，不再直接返回错误，而是尝试直接从键值存储(KV)中加载该提交记录。
添加监控日志：对于这种"提交记录未命中"的情况，添加专门的日志记录。这样运维人员可以监控系统中此类事件的发生频率，评估其对性能的影响。
保持一致性读取：从KV存储直接读取时确保使用一致性读取，避免引入新的竞态条件。

这种解决方案的优势在于：

完全解决了原有的竞态问题
保持了系统的正确性
通过日志提供了可观测性
对性能影响最小（仅在异常情况下需要额外读取）

实施效果

该解决方案实施后，系统表现出了更好的稳定性：

不再出现因新提交记录导致的GC失败
系统能够自动处理这类边界情况
运维团队可以通过日志监控此类事件的发生情况

经验总结

这个案例为我们提供了几个重要的经验教训：

分布式系统中的竞态条件：即使在看似单线程的处理流程中，由于分布式系统的特性，仍然可能出现并发问题。
错误处理的健壮性：对于可能出现的竞态条件，系统应该具备自我修复能力，而不是简单地报错。
可观测性的重要性：通过添加适当的日志，可以帮助我们更好地理解系统的运行状况和潜在问题。

这个问题的解决不仅修复了一个具体的bug，也为lakeFS项目在处理类似并发问题上提供了有价值的参考模式。

lakeFS - Data version control for your data lake | Git for data

项目地址：https://gitcode.com/gh_mirrors/la/lakeFS

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

昇腾LLM分布式训练框架

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started