RAFT v25.06.00版本深度解析：GPU加速计算库的重要更新

2025-07-09 18:52:24作者：裴锟轩Denise

RAFT contains fundamental widely-used algorithms and primitives for machine learning and information retrieval. The algorithms are CUDA-accelerated and form building blocks for more easily writing high performance applications.

项目地址：https://gitcode.com/gh_mirrors/raft11/raft

RAFT（Reusable Accelerated Functions and Tools）是RAPIDS生态系统中的一个核心库，专注于提供高性能、可重用的GPU加速算法原语和数据结构。作为构建数据科学和机器学习工作流的基础组件，RAFT为上层应用如cuML、cuGraph等提供了关键的加速功能。

版本核心更新

本次发布的v25.06.00版本带来了一系列重要的功能增强和性能优化，特别是在多GPU通信、矩阵运算和文本处理等方面有显著改进。

多GPU通信架构重构

本次更新中最具突破性的变化是对多GPU资源与NCCL（NVIDIA Collective Communications Library）使用的解耦。这一架构重构使得：

引入了新的device_resources_snmg类型，专门用于管理多GPU场景下的计算资源
实现了NCCL子通信器的创建功能，通过ncclCommSplit可以更灵活地划分通信域
修复了NCCL通信资源相关的多个问题，提升了多GPU环境下的稳定性

这种解耦设计使得RAFT在多GPU环境下的资源管理更加灵活，为未来支持更多通信后端奠定了基础。

矩阵运算增强

矩阵运算作为RAFT的核心功能之一，本次更新带来了多项改进：

新增了矩阵行列平移功能，支持对矩阵的行或列进行整体位移操作
改进了矩阵采样行操作，现在支持跨步矩阵视图作为输入
修复了COO格式矩阵对称化的问题，提升了稀疏矩阵处理的准确性
新增了Laplacian归一化原语，为图算法提供了更丰富的数学工具

这些改进使得RAFT在处理各种矩阵运算时更加高效和灵活，特别是对于大规模稀疏矩阵和图计算场景。

文本处理新特性

文本处理方面，本次版本新增了对BM25和TF-IDF算法的支持：

BM25（Best Matching 25）是一种广泛使用的信息检索算法
TF-IDF（词频-逆文档频率）是文本挖掘中常用的特征提取方法
这些算法的GPU加速实现显著提升了文本处理任务的效率

这些新增功能使得RAFT在自然语言处理和信息检索领域的应用能力得到增强。

性能优化与稳定性提升

除了新功能外，本次版本还包含多项性能优化和稳定性改进：

内存拷贝优化：新增了cudaMemcpy2DAsync的封装，提升了二维数据传输效率
构建系统改进：全面迁移到CUDA 12.9工具链，优化了编译标志
依赖管理：使用来自PyPI的NCCL wheel包，简化了CUDA 12环境的部署
代码质量：移除了Thrust迭代器，全面转向libcu++的实现，提升了代码的现代性和可维护性

开发体验改进

针对开发者体验，本次更新也做了多项优化：

Python接口增强：新增了对device_resources_snmg的Python封装
构建系统：全面迁移到rattler-build构建conda包，提升了构建可靠性
测试覆盖：修复了多个测试用例，提升了代码质量保证
文档完善：修复了多处警告和错误提示，提升了开发体验

总结

RAFT v25.06.00版本在多GPU支持、矩阵运算和文本处理等方面带来了显著改进，不仅增强了功能丰富度，也提升了系统的稳定性和性能。这些更新使得RAFT作为GPU加速计算的基础库更加成熟和强大，为上层数据科学和机器学习应用提供了更坚实的支撑。

对于现有用户，建议关注多GPU资源管理的变化，适时调整相关代码以适配新的API设计。新用户可以充分利用新增的文本处理功能和矩阵运算增强，构建更高效的GPU加速应用。

raft

项目地址：https://gitcode.com/gh_mirrors/raft11/raft

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

434

395

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

atomcode

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.68 K

990

RAFT v25.06.00版本深度解析：GPU加速计算库的重要更新

版本核心更新

多GPU通信架构重构

矩阵运算增强

文本处理新特性

性能优化与稳定性提升

开发体验改进

总结

热门内容推荐

最新内容推荐

项目优选

RAFT v25.06.00版本深度解析：GPU加速计算库的重要更新

版本核心更新

多GPU通信架构重构

矩阵运算增强

文本处理新特性

性能优化与稳定性提升

开发体验改进

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选