Kine项目中MySQL存储引擎的异常数据恢复问题分析

2025-07-06 05:31:44作者：尤峻淳Whitney

Run Kubernetes on MySQL, Postgres, sqlite, not etcd.

项目地址：https://gitcode.com/gh_mirrors/ki/kine

问题背景

在使用Kine作为Kubernetes数据存储后端时，我们遇到了一个严重的数据一致性问题。具体表现为：已经被删除的Kubernetes节点对象在数据库压缩(compaction)操作后重新出现在集群中。经过深入调查，发现这是由于Kine的MySQL存储引擎中数据出现异常状态导致的。

问题现象

在MySQL的kine表中，我们发现同一个键(如节点名称)存在多条记录，且这些记录之间的版本链(prev_revision字段)出现断裂或不一致的情况。例如：

id       | name                                          | create_revision | prev_revision 
---------|-----------------------------------------------|-----------------|--------------
2670700  | /registry/minions/prod-instance-1735943640622 |         2670699 |       2670699
2670702  | /registry/minions/prod-instance-1735943640622 |         2670699 |       2670699
2670706  | /registry/minions/prod-instance-1735943640622 |         2670699 |       2670699
2670711  | /registry/minions/prod-instance-1735943640622 |         2670699 |       2670708
8530560  | /registry/minions/prod-instance-1735943640622 |         2670699 |       2670711

在数据库压缩操作后，标记为已删除的记录(如id=8530560)被删除，但之前的版本记录却保留了下来，导致Kubernetes集群错误地将这些节点对象重新激活。

根本原因分析

经过深入调查，我们发现问题的根本原因在于：

唯一索引缺失：kine表的kine_name_prev_revision_uindex唯一索引丢失，导致系统允许插入重复的(名称, prev_revision)组合记录。正常情况下，这个索引应该确保每个键的版本链是完整且一致的。
多客户端并发写入：在HA环境中，多个kube-apiserver实例同时通过各自的kine客户端写入数据库，在没有唯一索引约束的情况下，可能导致数据版本链断裂。
压缩机制依赖完整版本链：Kine的压缩机制依赖于完整的版本链来正确识别和删除旧数据。当版本链断裂时，压缩操作无法正确识别应该删除的所有旧版本记录。

技术细节

Kine的MySQL存储引擎设计原理：

数据版本控制：每个键的修改都会创建新记录，通过prev_revision字段形成版本链。
删除标记：删除操作会插入一条deleted=1的记录，而不是物理删除。
压缩机制：定期删除不再需要的旧版本记录，但保留每个键的最新版本。

在正常情况下，kine表应该满足以下约束：

每个键的版本链必须完整且连续
每个(名称, prev_revision)组合必须唯一
删除操作必须创建deleted=1的最新版本

解决方案

对于已经出现问题的环境，建议采取以下恢复措施：

数据迁移：使用etcd-dump等工具将现有数据导出，然后导入到新建的、结构完整的kine数据库中。
索引修复：确保kine表重建所有必要的索引，特别是kine_name_prev_revision_uindex唯一索引。
版本升级：升级到最新版Kine(v0.13.8或更高)，其中包含多项数据一致性和健壮性改进。
预防措施：
- 定期验证数据库索引完整性
- 监控kine日志中的异常警告
- 考虑使用数据库的定期备份机制

经验教训

这个案例给我们带来以下重要启示：

数据库索引完整性对分布式系统的数据一致性至关重要。
存储引擎的设计假设必须与实际运行环境严格匹配。
对于关键基础设施组件，需要建立完善的监控和告警机制，尽早发现数据异常。
定期验证数据存储的健康状态应该成为运维标准流程的一部分。

通过这次问题的分析和解决，我们更深入地理解了Kine存储引擎的工作原理，也为类似系统的运维积累了宝贵经验。

Run Kubernetes on MySQL, Postgres, sqlite, not etcd.

项目地址：https://gitcode.com/gh_mirrors/ki/kine

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。