Incus项目Ceph存储下虚拟机启动失败问题分析与解决

2025-06-24 02:49:14作者：温玫谨Lighthearted

问题背景

在Incus 6.10版本中，用户在使用Ceph存储后端时遇到了虚拟机无法启动的问题。该问题主要出现在aarch64架构的集群环境中，表现为启动虚拟机时出现"Failed adding block device: error connecting: Operation not supported"错误。经过开发团队调查，发现这实际上是一个影响所有架构的普遍性问题，与QEMU权限配置有关。

问题现象

当用户尝试在配置了Ceph存储的Incus集群上启动虚拟机时，会遇到以下典型错误：

虚拟机启动失败，提示块设备添加错误
系统日志显示权限拒绝(Operation not supported/Permission denied)
没有生成虚拟机日志文件

根本原因分析

经过深入调查，开发团队发现了两个关键问题：

权限问题：新版本的实现逻辑要求Ceph keyring文件(/etc/ceph目录下)必须对QEMU进程可读。由于QEMU以非特权用户身份运行，而标准Ceph部署中keyring文件通常具有更严格的权限(如600)，导致访问被拒绝。
集群名称处理问题：代码实现中没有正确处理非标准Ceph集群名称的情况。当用户使用非默认集群名称时，系统无法正确识别和配置。

解决方案

开发团队迅速响应并提供了修复方案：

临时解决方案：将/etc/ceph下的keyring文件权限改为644，使QEMU进程可以读取。但需要注意这会降低安全性，因为系统中的任何用户都将获得Ceph访问权限。
永久修复：开发团队提交了代码修复(commit 62b7ba1)，部分回退到旧逻辑，同时保持代码整洁性。修复内容包括：
- 恢复提供Ceph配置文件路径的功能
- 改进集群名称处理逻辑
- 优化权限检查机制