Velero项目中Restic恢复与资源修改器冲突问题解析

2025-05-25 10:22:28作者：冯梦姬Eddie

问题背景

在Kubernetes数据备份恢复领域，Velero是一个广泛使用的工具。其中Restic作为Velero的集成组件，提供了文件系统级别的数据备份恢复能力。但在实际使用中，当Restic恢复操作与资源修改器（Resource Modifier）同时使用时，可能会出现恢复失败的情况。

问题现象

用户在使用Velero v1.15.0版本时发现：

当单独执行Restic恢复时，操作可以正常完成
当同时使用资源修改器对Deployment资源进行修改时，恢复过程中Pod会被重建
Pod重建后，原有的恢复目标Pod消失，导致卷恢复失败

技术原理分析

这个问题源于Velero恢复机制与Kubernetes控制器的工作方式之间的交互：

Restic恢复机制：Restic通过在目标Pod中添加InitContainer来实现文件系统恢复，这个InitContainer会在Pod启动前执行数据恢复操作。
资源修改器作用：资源修改器允许用户在恢复过程中对资源定义进行修改，如添加亲和性规则、容忍度等。
冲突产生原因：
- 当资源修改器作用于Deployment资源时，修改会触发Deployment控制器的滚动更新
- 控制器会创建新的ReplicaSet并逐步替换旧的Pod
- 此时Restic恢复的目标Pod被意外替换，导致恢复失败

解决方案

经过技术验证，正确的解决方法是：

将资源修改器应用于Pod资源而非Deployment：
- 直接修改Pod模板规范，避免触发Deployment的滚动更新
- 确保Restic添加的InitContainer能够稳定存在于目标Pod中
修改后的资源修改器配置示例：

- conditions:
    groupResource: pods
    resourceNameRegex: "^(elasticsearch|growi|gitea-apps-k8s-deployment2|growi-mongodb)-"
    namespaces:
    - gitea-prod
    - growi-prod
  patches:
  - operation: add
    path: "/spec/affinity"
    value: "{}"
  - operation: add
    path: "/spec/affinity/nodeAffinity"
    value: "{}"
  - operation: add
    path: "/spec/affinity/nodeAffinity/requiredDuringSchedulingIgnoredDuringExecution"
    value: "{}"
  - operation: add
    path: "/spec/affinity/nodeAffinity/requiredDuringSchedulingIgnoredDuringExecution/nodeSelectorTerms"
    value: "[{\"matchExpressions\":[{\"key\":\"nodetype\",\"operator\":\"NotIn\",\"values\":[\"devspotnode\"]}]}]"
  - operation: add
    path: "/spec/tolerations"
    value: "[{\"key\": \"kubernetes.azure.com/scalesetpriority\", \"operator\": \"Equal\", \"value\": \"spot\", \"effect\": \"NoSchedule\"}]"