UTM虚拟机中CentOS Stream 9升级后启动失败问题分析

2025-05-06 09:22:53作者：殷蕙予

问题现象

在UTM虚拟机环境中运行CentOS Stream 9系统的用户报告了一个严重问题：当系统执行dnf upgrade更新并重启后，虚拟机无法正常启动，系统在到达GRUB引导程序之前就会崩溃。类似的问题也出现在其他基于RHEL 9的发行版中，包括Rocky Linux 9.4、AlmaLinux 9.4、Oracle Linux 9.3/9.4以及Fedora 39等。

技术背景

这个问题与QEMU虚拟化环境中的一个已知bug有关。具体表现为系统启动时出现"Synchronous Exception"错误，导致引导过程中断。值得注意的是，即使不更新内核包，仅更新其他系统组件也会触发此问题，这表明问题根源可能不仅限于内核层面。

影响范围

经过多位用户的测试验证，此问题主要影响以下Linux发行版：

CentOS Stream 9
Rocky Linux 9.x系列
AlmaLinux 9.x系列
Oracle Linux 9.x系列
Fedora 39

而Fedora 40、Ubuntu 22.04/24.04以及Debian 11/12等发行版则不受此问题影响。

根本原因分析

从技术角度看，这个问题与QEMU在ARM架构下的页表处理机制有关。当这些受影响的RHEL系发行版执行系统更新后，某些组件（可能是引导加载程序或固件）会尝试使用特定的内存页大小配置，而QEMU的当前实现无法正确处理这种配置变更，导致系统在引导早期阶段就触发同步异常。

解决方案

目前有以下几种可行的解决方案：

切换虚拟化后端：将虚拟机的虚拟化后端从QEMU切换为Apple Virtualization框架。多位用户报告这种方法可以完全规避此问题。对于已存在的虚拟机，可以通过以下步骤迁移：
- 将原有虚拟磁盘转换为RAW格式
- 创建新的Apple Virtualization虚拟机配置
- 导入转换后的磁盘映像
使用替代引导加载程序：对于无法切换虚拟化后端的用户，可以尝试使用发行版安装介质中的原始grubx64.efi文件替换更新后的引导加载程序。具体操作包括：
- 从安装ISO中提取grubx64.efi
- 将其放置到/boot/efi/efi/[发行版名称]/目录下
- 通过OVMF引导管理器添加新的引导项
暂时避免系统更新：对于关键业务环境，在QEMU修复此问题前，可以暂时避免执行完整的系统更新，特别是涉及引导相关组件的更新。