UCX 1.18.1版本发布：高性能通信库的重要更新

2025-07-02 16:36:52作者：咎竹峻Karen

项目简介

UCX（Unified Communication X）是一个开源的高性能通信框架，专为现代高性能计算（HPC）和人工智能（AI）工作负载设计。它提供了统一的API，支持多种网络硬件和优化工具，包括InfiniBand、RoCE、TCP以及GPU加速通信。UCX被广泛应用于MPI实现、深度学习框架等场景，能够显著提升分布式应用的通信性能。

1.18.1版本核心更新

CUDA相关功能增强

本次版本在CUDA支持方面做了重要改进。新增了配置键用于更新CUDA拷贝带宽，特别针对一致性平台进行了优化。这一改进使得在使用NVIDIA GPU进行数据通信时，能够更好地利用硬件特性，提升数据传输效率。

另一个关键改进是针对CUDA内存池的内存缓存失效机制。通过优化缓存管理策略，减少了不必要的缓存失效操作，这对于频繁使用CUDA内存池的应用场景（如深度学习训练）将带来明显的性能提升。

构建系统更新

构建系统新增了对Ubuntu 24.04的支持，扩展了平台的兼容性。随着Ubuntu 24.04成为新的LTS版本，这一更新确保了UCX能够在最新的操作系统环境中稳定运行。

关键问题修复

UCP协议层改进

修复了当最大lane片段小于AM头部时可能出现的断言失败问题。Active Message（AM）是UCX中一种重要的通信机制，这一修复确保了在复杂网络环境下AM通信的可靠性。

同时修正了协议重配置过程中可能出现的用户头部使用后释放问题，消除了潜在的内存安全隐患。

CUDA内存管理修复

解决了UCT分配的CUDA Fabric内存注册问题，以及使用VMM和CUDA内存池时VA回收检查的问题。这些修复对于依赖CUDA直接内存访问（RDMA）的应用至关重要，确保了GPU内存的正确管理和高效访问。

RDMA核心协议栈优化

针对InfiniBand和RoCE设备做了多项改进：

避免使用ConnectX-8 SMI子设备进行通信，防止可能的性能下降
当设备支持DDP时禁用ODP，解决了远程访问错误问题
修正了配置逻辑，确保在AR禁用时也禁用DDP

这些改动提升了RDMA通信的稳定性和兼容性，特别是在使用最新一代网络硬件时。

UCM模块修复

解决了在amd64架构上使用CUDA 12.9时bistro钩子导致的崩溃问题。UCM（Unified Communication Manager）是UCX的内存管理组件，这一修复确保了与最新CUDA版本的兼容性。

平台支持矩阵

1.18.1版本提供了丰富的预编译包，支持多种Linux发行版和硬件组合：

操作系统：CentOS 7/8、Ubuntu 16.04-24.04
硬件架构：x86_64和aarch64
CUDA版本：11.x和12.x
MOFED版本：5.x

这种广泛的兼容性使得用户可以在不同环境中轻松部署UCX，无论是传统的x86服务器还是新兴的ARM平台，都能获得优化的通信性能。

技术价值分析

UCX 1.18.1版本虽然在版本号上是一个小版本更新，但包含的改进对于高性能计算和AI工作负载具有重要意义：

CUDA支持增强：随着AI训练规模的不断扩大，GPU间通信效率成为瓶颈。本次CUDA相关的优化直接针对这一问题，特别是内存池和缓存管理的改进，将有助于提升大规模分布式训练的通信效率。
协议栈稳定性：对UCP和RDMA核心协议的修复，增强了系统在复杂网络环境下的鲁棒性，这对于超算中心和云环境中的长时间运行作业尤为重要。
平台扩展性：新增Ubuntu 24.04支持，确保UCX能够跟上操作系统生态的发展，为用户提供更长久的技术支持周期。

应用建议

对于现有UCX用户，特别是以下场景建议升级到1.18.1版本：

使用NVIDIA GPU进行分布式训练
部署了ConnectX-7/8等新一代网络设备
运行在Ubuntu 22.04/24.04或CentOS 8环境
需要长期稳定运行的关键任务

对于新用户，1.18.1版本提供了更完善的硬件支持和更稳定的基础功能，是开始评估和部署UCX的良好起点。

总结

UCX 1.18.1版本延续了该项目对高性能通信的专注，通过针对性的功能增强和问题修复，进一步提升了框架的稳定性、性能和兼容性。特别是在GPU通信和最新硬件支持方面的改进，使得UCX在AI和高性能计算领域继续保持技术领先地位。对于依赖高效分布式通信的应用场景，这次更新值得关注和采用。

ucx

Unified Communication X (mailing list - https://elist.ornl.gov/mailman/listinfo/ucx-group)

项目地址：https://gitcode.com/gh_mirrors/uc/ucx

登录后查看全文

UCX 1.18.1版本发布：高性能通信库的重要更新

项目简介

1.18.1版本核心更新

CUDA相关功能增强

构建系统更新

关键问题修复

UCP协议层改进

CUDA内存管理修复

RDMA核心协议栈优化

UCM模块修复

平台支持矩阵

技术价值分析

应用建议

总结

最新内容推荐

项目优选

UCX 1.18.1版本发布：高性能通信库的重要更新

项目简介

1.18.1版本核心更新

CUDA相关功能增强

构建系统更新

关键问题修复

UCP协议层改进

CUDA内存管理修复

RDMA核心协议栈优化

UCM模块修复

平台支持矩阵

技术价值分析

应用建议

总结

相关内容推荐

最新内容推荐

项目优选