解决MinerU在Atlas 910B多卡环境下的NPU显存分配问题

2026-02-04 04:43:04作者：胡唯隽

在使用Atlas 910B 8卡环境部署MinerU时，用户可能会遇到NPU显存分配错误的问题。具体表现为，尽管已经通过Docker容器指定了使用第6和第7号算卡，但MinerU仍然默认使用了第0号算卡，导致显存不足而报错。本文将深入分析这一问题，并提供有效的解决方案。

问题背景

在Atlas 910B的多卡环境中，用户通常需要将不同的计算任务分配到不同的NPU上，以优化资源利用和避免显存冲突。例如，用户可能希望将前6张卡用于运行deepseek、embed和reranker等模型，而将最后两张卡（第6和第7号）专门用于运行MinerU。

然而，即使用户在启动Docker容器时通过--device参数明确指定了使用第6和第7号算卡，MinerU仍然可能错误地选择第0号算卡运行。这通常是由于MinerU内部的设备选择逻辑与Docker的设备映射不完全一致所致。

错误分析

当MinerU错误地使用了第0号算卡时，可能会遇到如下错误信息：

RuntimeError: NPU out of memory. Tried to allocate 18.00 MiB (NPU 0; 60.97 GiB total capacity; 1.70 GiB already allocated; 1.70 GiB current active; 20.04 MiB free; 1.82 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation.

这一错误明确指出了NPU 0的显存不足，而用户期望的NPU 6和7却未被使用。通过npu-smi info命令可以进一步验证这一情况，显示NPU 0上有MinerU的相关进程，而NPU 6和7上没有运行任何进程。

解决方案

要解决这一问题，用户需要通过修改MinerU的配置文件来明确指定使用的NPU设备。具体步骤如下：

1. 定位配置文件

MinerU的配置文件通常位于/root/magic-pdf.json。用户需要编辑该文件，找到与设备设置相关的部分。

2. 修改设备配置

在配置文件中，将设备设置从默认的npu修改为npu:X，其中X代表用户希望使用的具体NPU编号。例如，如果希望使用第6号NPU，则应修改为：

{
  "device": "npu:6"
}

3. 重启MinerU服务

修改配置文件后，需要重启MinerU服务以使更改生效。可以通过重启Docker容器或重新运行MinerU命令来实现。

4. 验证配置

重启后，再次运行npu-smi info命令，确认MinerU的进程是否运行在指定的NPU上。例如，如果指定了NPU 6，则应该看到类似以下的输出：

+---------------------------+---------------+--------------------------------------------------+
| NPU     Chip              | Process id    | Process name             | Process memory(MB)      |
+===========================+===============+===========+
| 6       0                 | [进程ID]      | python3                  | [内存使用]              |
+===========================+===============+===========+

深入理解

Docker设备映射与NPU设备选择

Docker的--device参数用于将宿主机的设备映射到容器中，但这并不直接控制应用程序内部的设备选择逻辑。MinerU作为基于PyTorch的应用程序，其设备选择通常由PyTorch的NPU后端和配置文件共同决定。

PyTorch NPU后端的设备指定

在PyTorch中，可以通过torch.npu.set_device()函数或环境变量来指定使用的NPU设备。MinerU的配置文件实际上是对这些底层API的封装，因此修改配置文件是最直接有效的方法。

多卡支持与局限性

目前，MinerU主要通过配置文件指定单个NPU设备运行。对于需要多卡并行推理的场景，用户可能需要等待后续版本的功能增强，或者通过自定义代码实现多卡分配。

最佳实践

明确设备需求：在部署前，明确每张NP卡的用途，避免资源冲突。
定期监控：使用npu-smi info定期监控各NPU的使用情况，及时发现异常。
版本兼容性：确保MinerU版本与NPU驱动和PyTorch版本的兼容性，避免因版本不匹配导致的设备识别问题。
日志分析：遇到问题时，详细分析日志文件，定位错误根源。

结论

通过修改MinerU的配置文件，用户可以精确控制其使用的NPU设备，避免显存分配错误。这一方法简单有效，适用于大多数单卡部署场景。对于更复杂的多卡需求，建议关注MinerU的后续版本更新或社区讨论，以获取更多技术支持。

MinerU

A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具，将PDF转换成Markdown和JSON格式。

项目地址：https://gitcode.com/OpenDataLab/MinerU

登录后查看全文

解决MinerU在Atlas 910B多卡环境下的NPU显存分配问题

问题背景

错误分析

解决方案

1. 定位配置文件

2. 修改设备配置

3. 重启MinerU服务

4. 验证配置

深入理解

Docker设备映射与NPU设备选择

PyTorch NPU后端的设备指定

多卡支持与局限性

最佳实践

结论

热门内容推荐

最新内容推荐

项目优选

解决MinerU在Atlas 910B多卡环境下的NPU显存分配问题

问题背景

错误分析

解决方案

1. 定位配置文件

2. 修改设备配置

3. 重启MinerU服务

4. 验证配置

深入理解

Docker设备映射与NPU设备选择

PyTorch NPU后端的设备指定

多卡支持与局限性

最佳实践

结论

相关内容推荐

热门内容推荐

最新内容推荐

项目优选