Harvester 项目中升级控制器处理DNS解析错误的优化

2025-06-14 06:14:14作者：冯爽妲Honey

问题背景

在Harvester项目的升级过程中，升级控制器负责清理不再需要的容器镜像。这一过程需要从升级仓库VM中获取镜像列表，但在某些情况下会出现DNS解析错误，导致镜像清理失败。

问题现象

在单节点集群的升级过程中，特别是在升级的最后阶段，当控制器重启升级仓库VM以获取镜像列表时，Kubernetes服务可能尚未更新相关端点。此时，尝试解析upgrade-repo-hvst-upgrade-xxxx.harvester-system域名时会出现"no such host"错误。

错误日志示例如下：

Unable to cleanup images: Get "http://upgrade-repo-hvst-upgrade-nv76q.harvester-system/...": dial tcp: lookup upgrade-repo-hvst-upgrade-nv76q.harvester-system on 10.53.0.10:53: no such host

技术分析

该问题本质上是一个DNS解析错误，具体表现为Golang标准库中的notFoundError类型错误。在单节点集群环境中，当节点在升级后重启时，DNS服务可能尚未完全恢复所有记录，而此时Harvester控制器已经开始请求仓库服务。

从技术实现角度看，Golang的net包中定义了这类错误：

var errNoSuchHost = &notFoundError{"no such host"}

当DNS查询失败时，系统会返回一个DNSError结构体，其中IsNotFound字段被设置为true，表示这是一个"not found"类型的错误。

解决方案

针对这一问题，开发团队采取了以下解决方案：

将DNS解析错误添加到重试机制的错误列表中
增强错误处理逻辑，使控制器能够识别并正确处理这类临时性DNS问题
实现自动重试机制，在遇到这类错误时不会立即失败，而是等待服务完全恢复

验证方法

该修复的验证方法相对简单直接：

执行Harvester版本升级操作
升级完成后检查Harvester Pod的日志
确认日志中不再出现包含"lookup...no such host"关键字的警告信息

技术意义

这一修复不仅解决了特定场景下的问题，还增强了系统在临时性网络问题下的健壮性。它体现了分布式系统中一个重要的设计原则：对临时性故障应当有自动恢复机制，而不是立即失败。

在云原生环境中，服务之间的依赖关系复杂，网络状况多变，这类针对临时性故障的容错处理尤为重要。通过将DNS解析错误纳入重试机制，系统能够更好地应对服务启动顺序、网络延迟等现实世界中的问题。

总结

Harvester项目团队通过分析升级过程中出现的DNS解析问题，识别出在单节点集群升级场景下的特定故障模式，并实施了针对性的修复。这一改进提升了升级过程的可靠性，特别是在资源受限或网络条件不理想的部署环境中。对于使用Harvester的用户来说，这意味着更稳定、更可靠的升级体验。

harvester

Open source hyperconverged infrastructure (HCI) software

项目地址：https://gitcode.com/gh_mirrors/ha/harvester

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

202

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理

Harvester 项目中升级控制器处理DNS解析错误的优化

问题背景

问题现象

技术分析

解决方案

验证方法

技术意义

总结

热门内容推荐

最新内容推荐

项目优选

Harvester 项目中升级控制器处理DNS解析错误的优化

问题背景

问题现象

技术分析

解决方案

验证方法

技术意义

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选