Cloud-init系统服务启动顺序问题分析与解决方案

2025-06-25 20:51:33作者：羿妍玫Ivan

问题背景

在最新版本的Cloud-init（24.3.1及以上）中，用户报告了一个关键的系统服务启动问题。当系统启动时，cloud-init-main.service服务未能按预期自动启动，导致整个云实例初始化流程中断。这个问题最初在Arch Linux发行版上被发现，但经过分析，它实际上是一个普遍性问题，可能影响所有使用systemd作为init系统的Linux发行版。

问题根源分析

深入调查后发现，问题的根源在于cloud-init-main.service单元文件中的服务启动顺序定义存在冲突。具体表现为：

重复定义问题：在服务模板文件中，Before=sysinit.target和Conflicts=shutdown.target这两条指令被意外地定义了两次——一次在条件判断语句内部，另一次在条件判断外部。
启动顺序冲突：Before=sysinit.target指令与同一文件中的Wants=network-pre.target指令产生了冲突。在systemd的启动序列中，sysinit.target阶段实际上发生在network-pre.target之前，这种矛盾的依赖关系导致了循环依赖。
系统启动循环：当systemd尝试解析这些依赖关系时，检测到了一个无法解决的循环依赖链：cloud-init-main.service → sysinit.target → basic.target → sockets.target → gpg-agent-extra.socket → sysinit.target。这种循环依赖导致systemd不得不放弃启动cloud-init-main.service。

技术细节

在systemd的服务管理机制中，服务单元的启动顺序是通过Before、After、Requires、Wants等指令来定义的。当出现循环依赖时，systemd会尝试自动解决，但如果循环无法打破（如本例中的情况），相关服务将无法启动。

特别值得注意的是，Before=sysinit.target这种定义方式通常需要配合DefaultDependencies=no使用，否则很容易引入循环依赖问题。而在当前的服务定义中，缺少了这个关键配置。

解决方案

经过社区讨论和代码审查，确认这是一个意外的代码合并错误。正确的修复方式是：

移除条件判断外部的Before=sysinit.target和Conflicts=shutdown.target指令，保留它们在条件判断内部的版本。
确保服务定义中不包含相互矛盾的启动顺序要求。
对于需要早期启动的服务，考虑使用更精确的依赖关系定义，而不是简单地依赖sysinit.target。

影响范围

虽然这个问题最初是在Arch Linux上发现的，但它实际上影响所有使用以下配置的环境：

使用systemd作为init系统
运行Cloud-init 24.3.1及以上版本
系统中有其他服务依赖于sysinit.target或相关目标

验证方法

系统管理员可以通过以下命令验证是否受到此问题影响：

systemd-analyze verify cloud-init-main.service

如果输出显示"Found ordering cycle"（发现顺序循环），则表明系统存在此问题。

临时解决方案

对于急需解决问题的用户，可以手动编辑/usr/lib/systemd/system/cloud-init-main.service文件，移除其中的Before=sysinit.target指令。但这不是长期解决方案，建议等待官方修复并更新软件包。

长期改进方向

Cloud-init开发团队正在考虑对服务模板系统进行重构，目标是：

减少或消除模板复杂性
寻找满足大多数发行版需求的统一服务顺序
可能完全取消某些服务的模板化
利用systemd提供的机制实现更健壮的服务排序

总结

这个案例展示了系统服务启动顺序定义的重要性，特别是在复杂的初始化系统如Cloud-init中。它提醒我们：

服务依赖关系需要精心设计，避免循环
模板系统需要谨慎维护，避免意外合并
跨发行版兼容性需要全面测试
systemd的高级功能（如DefaultDependencies）需要正确使用

通过这次问题的分析和解决，Cloud-init在系统服务管理方面将变得更加健壮，为用户提供更可靠的云实例初始化体验。

cloud-init

Official upstream for the cloud-init: cloud instance initialization

项目地址：https://gitcode.com/gh_mirrors/cl/cloud-init

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.22 K

669