Amazon EKS AMI 中 AL2023 镜像启动速度优化实践

2025-06-30 17:45:31作者：齐冠琰

背景分析

在 Amazon EKS 环境中，Amazon Linux 2023 (AL2023) 作为新一代基础镜像，相比 AL2 在启动速度上出现了明显的性能下降。经过深入分析，我们发现主要瓶颈集中在几个关键服务上：

nodeadm 服务：负责节点初始化配置
kubelet 版本检测：获取 kubelet 版本信息耗时显著
update-motd 服务：系统欢迎信息更新服务
EBS 延迟加载：影响二进制文件的首次执行速度

性能瓶颈定位

通过 systemd-analyze 工具分析启动时间线，我们发现：

nodeadm-config.service 耗时约 20 秒
cloud-init.service 耗时约 7.2 秒
nodeadm-run.service 耗时约 10.53 秒
containerd-service 耗时约 8.7 秒

日志分析显示，kubelet 版本检测（通过执行 kubelet --version）和 containerd 配置解析（通过 containerd config dump）是主要的时间消耗点。

优化方案与实施

1. 禁用 update-motd 服务

update-motd.service 在启动过程中消耗了约 4 秒时间。由于 EKS 节点通常不需要动态 MOTD（每日消息）更新，我们选择禁用此服务：

[Unit]
Description=Disable update-motd
Before=multi-user.target

[Service]
Type=oneshot
ExecStart=/bin/systemctl disable --now update-motd.service

[Install]
WantedBy=multi-user.target

这一优化使得整体启动时间减少了约 4 秒。

2. 优化 kubelet 版本检测机制

原始实现通过执行 kubelet --version 命令获取版本信息，这在 EBS 延迟加载环境下特别耗时。我们改进为：

func GetKubeletVersion() (string, error) {
    if kubeletVersion := os.Getenv("KUBELET_VERSION"); kubeletVersion != "" {
        zap.L().Info("Found kubelet version in environment")
        return kubeletVersion, nil
    }
    rawVersion, err := GetKubeletVersionRaw()
    if err != nil {
        return "", err
    }
    version := parseSemVer(*rawVersion)
    return version, nil
}

同时在 systemd 服务配置中预置版本信息：

[Service]
Environment="KUBELET_VERSION=v1.29.3"

这一优化将 kubelet 版本检测时间从约 13 秒减少到几乎可以忽略不计。

3. 启用 EBS 快速恢复

虽然 EBS 快速恢复（Fast Restore）会增加成本，但在性能敏感场景下，启用它可以显著减少启动时间：

aws ec2 enable-fast-snapshot-restores \
    --availability-zones eu-west-1c \
    --source-snapshot-ids snap-0123456789abcdef0

测试数据显示，启用快速恢复后，启动时间从约 100 秒降至约 50 秒。

优化效果对比

优化措施	AL2 默认	AL2023 优化前	AL2023 优化后
总启动时间	~22s	~100s	~40s
nodeadm-config	-	~20s	~5s
kubelet 版本检测	-	~13s	<1s
update-motd	-	~4s	禁用

深入技术解析

EBS 延迟加载的影响

Amazon EBS 的延迟块加载特性虽然提高了存储效率，但会导致首次访问二进制文件时出现延迟。这在系统启动阶段尤为明显，因为：

关键服务二进制需要从存储加载
依赖链导致串行延迟累积
并行启动的服务可能竞争 I/O 资源

containerd 配置解析优化

原始实现使用 containerd config dump 命令并通过正则表达式解析输出，这在配置复杂时效率较低。可以考虑：

直接读取默认配置文件路径
使用专用 TOML 解析库
缓存解析结果避免重复处理

生产环境建议

对于生产环境部署，我们推荐：

基础优化：必做
- 禁用 update-motd 服务
- 预置 kubelet 版本信息
进阶优化：根据需求选择
- 启用 EBS 快速恢复（考虑成本）
- 定制 containerd 配置解析逻辑
监控机制：
- 建立启动时间基线监控
- 设置启动时间告警阈值
- 定期评估新 AMI 版本的启动性能

未来优化方向

并行初始化：分析服务依赖关系，实现更多并行初始化
二进制预加载：在 initrd 阶段预加载关键二进制
服务延迟启动：将非关键服务延迟到启动后执行
GPU 支持优化：针对 GPU 节点的专用优化方案

通过上述优化措施，AL2023 EKS AMI 的启动性能已经接近 AL2 的水平，同时保留了新版本操作系统的各项优势。这些优化经验也可应用于其他基于 Amazon Linux 2023 的定制 AMI 开发。

amazon-eks-ami

Packer configuration for building a custom EKS AMI

项目地址：https://gitcode.com/GitHub_Trending/am/amazon-eks-ami

登录后查看全文

Amazon EKS AMI 中 AL2023 镜像启动速度优化实践

背景分析

性能瓶颈定位

优化方案与实施

1. 禁用 update-motd 服务

2. 优化 kubelet 版本检测机制

3. 启用 EBS 快速恢复

优化效果对比

深入技术解析

EBS 延迟加载的影响

containerd 配置解析优化

生产环境建议

未来优化方向

最新内容推荐

项目优选

Amazon EKS AMI 中 AL2023 镜像启动速度优化实践

背景分析

性能瓶颈定位

优化方案与实施

1. 禁用 update-motd 服务

2. 优化 kubelet 版本检测机制

3. 启用 EBS 快速恢复

优化效果对比

深入技术解析

EBS 延迟加载的影响

containerd 配置解析优化

生产环境建议

未来优化方向

相关内容推荐

最新内容推荐

项目优选