NVIDIA Triton Inference Server 编译中CMAKE_CUDA_ARCHITECTURES参数设置问题解析

2025-05-25 10:20:39作者：魏献源Searcher

The Triton Inference Server provides an optimized cloud and edge inferencing solution.

项目地址：https://gitcode.com/gh_mirrors/server117/server

在编译NVIDIA Triton Inference Server时，开发者可能会遇到一个常见的CMake配置问题，特别是当尝试在不使用Docker容器的情况下进行本地编译时。这个问题涉及到CUDA架构版本的设置，错误信息通常表现为"CMAKE_CUDA_ARCHITECTURES must be non-empty if set"。

问题现象

当开发者尝试使用自定义的构建脚本编译Triton Inference Server时，CMake会抛出错误提示，指出CMAKE_CUDA_ARCHITECTURES参数虽然被设置但内容为空。这种情况通常发生在开发者试图为不同的CUDA架构版本指定编译目标时。

问题根源

这个问题的根本原因在于CUDA架构版本的格式不正确。开发者最初尝试使用的格式为"6.0;6.1;6.2;7.0;7.5;8.0;8.6;8.9;9.0"，这种带小数点的格式不符合CMake对CUDA架构版本的要求。

解决方案

正确的CUDA架构版本号应该去掉小数点，使用以下格式：

CMAKE_CUDA_ARCHITECTURES="60;61;62;70;75;80;86;89;90"

这种格式是NVIDIA官方推荐的CUDA架构版本表示方法，其中每个数字组合代表一个特定的GPU架构：

60代表Maxwell架构
61代表Pascal架构
70代表Volta架构
75代表Turing架构
80代表Ampere架构
86和89代表Ampere架构的不同变种
90代表最新的Hopper架构

技术背景

CMAKE_CUDA_ARCHITECTURES是CMake中用于指定CUDA代码生成目标架构的重要参数。它决定了编译器将为哪些GPU架构生成PTX代码和二进制代码。正确设置这个参数可以确保编译出的Triton Inference Server能够在目标GPU上高效运行。

在Triton Inference Server的构建系统中，这个参数需要被正确传递给核心组件和各个后端（如Python后端）。开发者通常需要通过--override-core-cmake-arg和--override-backend-cmake-arg选项来分别设置核心和特定后端的CUDA架构目标。

最佳实践

在构建Triton Inference Server时，应该根据实际部署环境的GPU架构来设置CMAKE_CUDA_ARCHITECTURES参数
可以包含多个架构版本以确保更好的兼容性，但会增加编译时间
对于生产环境，建议只包含实际使用的GPU架构版本
如果不确定目标架构，可以使用"native"值让CMake自动检测当前系统的GPU架构

总结

正确设置CMAKE_CUDA_ARCHITECTURES参数对于成功编译Triton Inference Server至关重要。开发者应该注意使用不带小数点的架构版本号格式，并根据实际需求选择合适的架构组合。这个问题虽然看似简单，但却是许多开发者在构建过程中容易遇到的典型配置问题。

The Triton Inference Server provides an optimized cloud and edge inferencing solution.

项目地址：https://gitcode.com/gh_mirrors/server117/server

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

deepin linux kernel

Ascend Extension for PyTorch

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started