Docker Compose项目中使用NVIDIA运行时的配置问题解析

2025-05-04 04:04:44作者：管翌锬

在Docker生态系统中，NVIDIA运行时为GPU加速应用提供了强大的支持。然而，近期在Docker Compose项目中发现了一个值得注意的问题：从2.29.1版本升级到2.29.7版本后，通过docker-compose文件配置的NVIDIA运行时无法正常工作，而直接使用docker run命令却可以正常运行。

问题现象

当用户尝试在Jetson Orin-NX设备上使用docker-compose-plugin 2.29.7版本时，发现尽管在compose文件中明确指定了runtime为nvidia，但容器内无法正常加载NVIDIA相关的共享库（如libnvdla_compiler.so）。而使用docker run命令配合--runtime nvidia参数启动相同镜像时，则一切正常。

技术背景

NVIDIA运行时是Docker容器访问GPU资源的关键组件。在Docker Compose中，通常通过以下方式配置：

runtime: nvidia
deploy:
  resources:
    reservations:
      devices:
      - driver: nvidia
        capabilities: [utility, compute, video]

这种配置理论上应该与docker run --runtime nvidia等效，但在特定版本中出现了行为差异。

问题根源

经过技术分析，发现问题的核心在于设备资源配置的处理方式发生了变化。在2.29.7版本中，当没有明确指定设备数量(count)时，默认行为与之前版本不同。这导致了NVIDIA运行时没有被正确激活。

解决方案

该问题已在代码库中得到修复，解决方案是当没有显式提供count值时，默认设置为"all"（即-1）。这意味着容器将获得所有可用的NVIDIA设备资源。

修复后的配置示例如下：

services:
  test:
    deploy:
      resources:
        reservations:
          devices:
            - capabilities: [utility, compute, video]
              driver: nvidia
              count: -1  # 表示使用所有可用设备