Eclipse Che 部署过程中 Dev Workspace Operator 就绪检查失败问题分析

2025-05-31 07:53:04作者：范靓好Udolf

问题背景

在 Eclipse Che 7.88 版本的部署过程中，特别是在执行 Smoke 测试时，系统报告了 Dev Workspace Operator (DWO) 就绪检查失败的问题。该问题表现为部署过程中等待 DWO 就绪时超时，导致整个 Che 部署流程失败。

问题现象

部署日志显示，系统在等待 Dev Workspace Operator 就绪时发生了超时错误：

Wait for Dev Workspace operator ready [failed]
→ ERR_TIMEOUT: Timeout set to pod ready timeout 120000

根本原因分析

经过深入调查，发现该问题源于 Dev Workspace Operator 的最新变更与 chectl 工具的预期行为不匹配。具体来说：

Dev Workspace Operator 的最新版本（PR #1281）将默认的 webserver pod 数量从 1 个增加到了 2 个
然而，chectl 工具中的就绪检查逻辑仍然只预期 1 个 pod 会运行
这种预期与实际运行状态的不匹配导致了就绪检查超时失败

技术细节

在 chectl 的源代码中，存在以下关键检查逻辑：

// 在 dev-workspace-tasks.ts 文件中
const podName = await this.kubeHelper.waitPodReady(
  'app.kubernetes.io/component=devworkspace-webhook-server',
  namespace
);

这段代码假设只有一个 webhook server pod 会运行，而实际上现在默认会有两个 pod 同时运行。

解决方案

针对此问题，开发团队已经提出了修复方案：

修改 chectl 的就绪检查逻辑，使其能够正确处理多个 webhook server pod 的情况
更新 pod 选择器，使其更加精确地匹配预期的 pod 状态
调整超时处理逻辑，确保在合理时间内完成所有必要的检查

影响范围

该问题影响以下场景：

使用最新版本 chectl 部署 Eclipse Che 7.88 及以上版本
在 OpenShift 和 Kubernetes 平台上的部署
自动化测试流程，特别是 Smoke 测试场景

临时解决方案

在官方修复发布前，用户可以尝试以下临时解决方案：

使用指定版本的 Dev Workspace Operator，避免自动升级到最新版本
手动调整部署配置，显式设置 webhook server 的副本数为 1
延长部署过程中的超时时间设置

总结

这个问题展示了在复杂云原生系统中组件间依赖关系的重要性。当底层组件（如 Dev Workspace Operator）的行为发生变化时，上层管理工具（如 chectl）需要相应地进行调整。开发团队已经快速响应并提供了修复方案，确保了 Eclipse Che 部署流程的稳定性。

对于使用 Eclipse Che 的用户来说，建议关注官方更新并及时应用修复版本，以确保部署过程的顺利进行。同时，这也提醒我们在自动化部署流程中需要考虑组件版本兼容性和预期行为变化的问题。

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Dart

1.04 K

271