Velero备份中断导致CSI快照泄漏问题分析与解决方案

2025-05-25 19:21:11作者：凤尚柏Louis

问题背景

在Kubernetes集群中使用Velero进行数据备份时，可能会遇到一个潜在的数据泄漏问题。当Velero Pod在备份过程中意外重启时，系统会将正在进行的备份标记为失败状态。这种情况下，已经创建的CSI卷快照（VolumeSnapshot和VolumeSnapshotContent）可能无法被正常清理，从而造成资源泄漏。

问题机制深度解析

备份中断处理机制
Velero设计了一个保护机制：当服务重启时发现存在状态为"InProgress"的备份任务，会主动将其标记为失败。这种设计是为了防止出现不一致的备份状态。然而，这种处理方式存在一个副作用——已经创建的CSI快照资源可能无法被正确清理。
快照泄漏的根本原因
备份过程中创建的CSI快照信息会先保存在集群中，待备份完成后才会将相关信息上传到备份存储库。当备份被意外中断时：
- 快照元数据尚未写入备份存储库
- 但CSI快照资源已实际创建在集群中
- 后续的备份删除操作无法识别这些"孤立"的快照
现有清理流程的局限性
当前Velero的备份删除控制器依赖备份存储库中的volumesnapshots.json文件来识别需要清理的快照。对于因中断而未能记录的快照，系统无法自动清理，导致：
- VolumeSnapshot资源残留
- VolumeSnapshotContent资源残留
- 底层存储系统中的实际快照数据残留

解决方案设计

针对这一问题，我们提出了一套增强型的清理机制，可以在备份删除时主动检测并清理这些"孤立"的快照资源：

资源发现机制
通过Kubernetes标签选择器查找所有带有"velero.io/backup-name"标签的VolumeSnapshot资源，即使它们没有记录在备份存储库中。
安全删除流程
采用分步骤的稳妥删除方式：
- 首先解除资源上的finalizers保护
- 将删除策略(Deletion Policy)设置为"delete"
- 先删除VolumeSnapshot资源
- 再删除关联的VolumeSnapshotContent资源
实现位置
该逻辑应实现在备份删除控制器中，当检测到备份存储库中缺少快照信息时触发。这既处理了备份中断的情况，也能应对备份存储库数据意外丢失的场景。

实施建议

对于使用Velero的管理员，建议采取以下措施：

监控机制
定期检查集群中是否存在"孤立"的CSI快照资源，特别是那些标记了Velero备份标签但无对应备份记录的资源。

临时解决方案
对于已存在的泄漏问题，可以手动执行清理：

# 查找指定备份相关的快照
kubectl get volumesnapshot -l velero.io/backup-name=<backup-name> -A

# 删除相关资源(先VolumeSnapshot，后VolumeSnapshotContent)
kubectl delete volumesnapshot <snapshot-name> -n <namespace>