Kubernetes节点测试失败问题分析与解决方案

2025-04-28 03:52:31作者：冯梦姬Eddie

问题背景

在Kubernetes项目的持续集成测试中，近期发现master分支的节点端到端测试(ci-node-e2e)出现持续失败的情况。这些测试主要验证Kubernetes节点层面的功能正确性，特别是与容器运行时containerd的集成部分。

故障现象

测试失败表现为kubetest.Node Tests执行过程中出现非零退出状态(exit status 1)。从错误日志可以看出，测试框架在尝试通过SSH连接到GCE实例运行节点测试时遇到了问题。测试配置中指定了使用containerd作为容器运行时，并设置了相关的cgroup参数。

技术分析

深入分析测试失败原因，可以归纳为以下几点：

容器运行时集成问题：测试配置中明确指定了containerd的Unix socket路径(--container-runtime-endpoint=unix:///run/containerd/containerd.sock)，这表明测试与containerd的通信可能出现问题。
cgroup配置问题：测试参数中设置了--cgroups-per-qos=true和--cgroup-root=/等cgroup相关参数，这些配置在containerd环境下可能需要特殊处理。
日志收集失败：测试框架尝试收集containerd的日志(--extra-log参数指定收集containerd*的日志)，但可能由于权限或其他原因未能成功。

解决方案

经过社区技术专家分析，这个问题与containerd运行时的特定配置有关。核心解决方案包括：

containerd配置调整：优化containerd的cgroup配置，确保与kubelet的参数设置兼容。
测试参数修正：更新节点测试的启动参数，特别是与容器运行时相关的配置项。
日志收集机制改进：增强日志收集的可靠性，确保在测试失败时能够获取足够的诊断信息。

影响范围

该问题主要影响：

使用containerd作为容器运行时的Kubernetes节点
运行节点一致性测试([NodeConformance])的CI环境
特定配置下的GCE实例部署

后续工作

社区已经提交了修复补丁，主要工作包括：

修正containerd集成测试的配置参数
增强测试框架的错误处理能力
完善相关文档说明

总结

Kubernetes节点测试的稳定性对于保证集群可靠性至关重要。这次containerd相关的测试失败揭示了容器运行时集成中的一个潜在问题。通过社区的快速响应和修复，不仅解决了当前问题，也为未来类似问题的诊断和处理积累了宝贵经验。

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。