Harvester项目中大内存VM与多GPU配置的OOM问题分析与解决

2025-06-14 16:52:44作者：郁楠烈Hubert

在Harvester虚拟化平台上，当用户尝试配置大内存虚拟机并搭配多块NVIDIA GPU时，可能会遇到虚拟机无法正常启动的问题。本文将深入分析这一现象的原因，并提供有效的解决方案。

问题现象

用户在使用配备1TB内存和4块NVIDIA H100 GPU的服务器时发现：

配置2块GPU和64GB内存的虚拟机运行正常
当内存增加到128GB时，虚拟机进入启动循环（启动-运行-停止）
类似问题也出现在配备2块NVIDIA L40s GPU和320GB内存的配置中

根本原因分析

通过分析内核日志发现，这类问题主要是由于内存控制组（cgroup）的OOM（Out of Memory）事件导致的。当虚拟机配置较大内存和多块GPU时，QEMU进程及其相关组件会消耗大量内存，特别是在以下情况下更为明显：

GPU驱动开销：NVIDIA GPU直通时，驱动会占用额外的内存空间
CPU核心数影响：低核心数配置（如16核）比高核心数配置（如48核）更容易触发OOM
内存预留不足：默认配置未为系统开销预留足够内存

解决方案

Harvester提供了ReservedMemory参数来解决这类问题。正确的配置方法如下：

计算预留内存：通常建议预留虚拟机总内存的10%作为系统开销
- 例如448GB内存的虚拟机，应设置约40GB的预留内存
- 256GB内存的虚拟机，应设置约25GB的预留内存
配置方法：在虚拟机YAML配置中添加或修改以下部分：

resources:
  limits:
    cpu: "48"
    memory: 448Gi
  requests:
    cpu: "3"
    memory: 448Gi
  ReservedMemory: 40Gi

最佳实践建议

渐进式测试：在配置大内存虚拟机时，建议从小内存开始测试，逐步增加
监控系统日志：密切关注内核日志中的OOM事件提示
平衡配置：在CPU核心数较少的情况下，考虑适当增加预留内存比例
版本兼容性：确保使用Harvester 1.4.0或更高版本，以获得最佳的大内存支持

通过合理配置ReservedMemory参数，用户可以成功在Harvester平台上运行大内存、多GPU的高性能虚拟机，满足AI训练、大数据处理等高性能计算场景的需求。

harvester

Open source hyperconverged infrastructure (HCI) software

项目地址：https://gitcode.com/gh_mirrors/ha/harvester

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

496

521

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

作为 Ascend for PyTorch 社区的核心组件，TorchNPU 是昇腾专为 PyTorch 打造的深度学习适配插件，使 PyTorch 框架能够直接调用昇腾 NPU，为开发者提供昇腾 AI 处理器的超强算力。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

665

304