RKE2项目中Ingress控制器升级故障分析与解决方案

2025-07-09 05:49:45作者：滕妙奇

项目地址：https://gitcode.com/gh_mirrors/rk/rke2

问题背景

在RKE2项目的使用过程中，用户报告了一个关于Ingress控制器升级的故障现象。当从v1.31.4版本升级到v1.31.5版本时，启用defaultBackend功能的Ingress控制器升级过程会失败，并出现"nil pointer evaluating interface {}.global"的错误提示。

故障现象详细描述

在升级过程中，当用户尝试通过Helm命令升级Ingress控制器时，系统会抛出以下错误信息：

Error: UPGRADE FAILED: template: rke2-ingress-nginx/templates/_helpers.tpl:266:14: executing "system_default_registry" at <.Values.global.systemDefaultRegistry>: nil pointer evaluating interface {}.global

特别值得注意的是，这个错误仅在用户启用了defaultBackend功能时出现。defaultBackend是Ingress控制器的一个重要组件，它负责处理所有未明确匹配任何规则的请求，通常用于返回自定义的错误页面（如404、500等），而不仅仅是默认的简单错误响应。

技术分析

经过深入分析，我们发现问题的根源在于Helm模板的作用域处理逻辑。在rke2-ingress-nginx的Helm chart中，defaultBackend部分的模板使用了以下代码：

{{- with (merge .Values.defaultBackend.image .Values.global.image) }}
image: "{{ template "system_default_registry" . }}{{ template "repository_or_registry_and_image" .Values.defaultBackend.image }}"
{{- end }}

这段代码存在两个关键问题：

作用域问题：with语句改变了当前作用域，使得后续模板中无法正确访问.Values对象
空指针风险：代码没有对.Values.global进行空值检查，直接尝试访问其属性

解决方案

针对这个问题，我们提供了两种解决方案：

临时解决方案

对于急需解决问题的用户，可以修改Helm chart的values文件，在defaultBackend部分显式定义global和image配置：

defaultBackend:
  enabled: true
  autoscaling:
    enabled: false
  image:
    repository: your-registry/your-default-backend
    tag: "v1.1"
    readOnlyRootFilesystem: false
    Values:
      global:
        systemDefaultRegistry: ""
      defaultBackend:
        image:
          repository: your-registry/your-default-backend
          tag: "v1.1"