Juju项目在Azure云上启用高可用性(HA)功能失败问题分析

2025-07-01 11:10:04作者：秋阔奎Evelyn

Orchestration engine that enables the deployment, integration and lifecycle management of applications at any scale, on any infrastructure (Kubernetes or otherwise).

项目地址：https://gitcode.com/gh_mirrors/ju/juju

问题概述

在Juju 3.6.4版本中，用户尝试在Azure云平台上使用juju enable-ha命令启用高可用性功能时遇到了问题。具体表现为：虽然初始引导(bootstrap)过程成功完成，但在添加额外控制器节点时，新增的机器会永久停留在"pending"状态，无法完成高可用性配置。

现象描述

当用户执行以下操作序列时：

使用juju bootstrap azure test-controller成功引导控制器
运行juju enable-ha命令启用高可用性

系统状态显示：

主控制器(machine 0)正常运行
两个新增的控制器节点(machine 1和2)持续处于"pending"状态
相关单元状态显示为"waiting for machine"

根本原因分析

通过检查控制器日志，发现问题的根本原因是Azure提供商的createVirtualMachine方法中发生了段错误(segfault)。具体表现为：

当尝试创建新的虚拟机实例时，Juju的Azure提供商代码在environ.go文件的第924行附近发生崩溃
这个段错误导致jujud进程反复崩溃和重启
由于创建过程无法完成，新增的控制器节点永远无法进入正常运行状态

技术细节

从堆栈跟踪分析，问题出现在以下调用链中：

azureEnviron.StartInstance方法被调用以启动新实例
该方法调用startInstance内部方法
最终在createVirtualMachine方法执行时发生段错误

这种类型的错误通常表明存在内存管理问题，可能是：

对空指针的解引用
内存越界访问
并发访问冲突

临时解决方案

虽然这不是永久修复，但可以通过以下方法暂时缓解问题：

在引导时增加CPU和内存资源约束
这可能会为Azure提供商提供足够的资源来避免段错误情况

影响范围

此问题特定于：

Juju 3.6.4版本
Azure云平台
高可用性功能启用场景

值得注意的是，相同的操作在AWS云平台上可以正常工作，这表明问题与Azure提供商的特定实现有关。

后续进展

开发团队已经识别了问题根源并提交了修复代码。该修复涉及Azure提供商中虚拟机创建逻辑的改进，特别是处理资源分配和内存管理的部分。

总结

这个问题展示了在云平台集成中可能遇到的特定提供商问题。虽然Juju的核心功能在大多数云平台上运行良好，但每个云提供商的API和资源管理方式差异可能导致特定场景下的异常行为。开发团队通过详细的日志分析和问题追踪，能够快速定位和修复这类底层问题，确保多平台支持的一致性。

juju

Orchestration engine that enables the deployment, integration and lifecycle management of applications at any scale, on any infrastructure (Kubernetes or otherwise).

项目地址：https://gitcode.com/gh_mirrors/ju/juju

登录后查看全文

项目优选

收起

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

830

6.18 K

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

AtomGit CLI （ag cli），AtomGit 命令行工具，参考 GitHub CLI (gh) 开发。目前 atomgit-cli 项目已在 AtomCode 的 Coding Plan 项目列表中

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。