RAFT 25.08版本更新：矩阵运算优化与内存管理改进

2025-07-09 20:12:26作者：裴麒琰

RAFT contains fundamental widely-used algorithms and primitives for machine learning and information retrieval. The algorithms are CUDA-accelerated and form building blocks for more easily writing high performance applications.

项目地址：https://gitcode.com/gh_mirrors/raft11/raft

RAFT（Reusable Accelerated Functions and Tools）是RAPIDS生态系统中的一个核心库，专注于提供高性能的GPU加速算法和数据结构。作为数据科学和机器学习工作流的基础组件，RAFT持续优化其核心功能以提升计算效率。

核心优化：矩阵运算性能提升

本次25.08版本在矩阵运算方面进行了多项重要改进。开发团队重构了MatrixLinewiseOp的实现方式，将其改为编译时调用，这一改变显著减少了运行时开销。同时，针对转置操作增加了对F16（半精度浮点）数据类型的支持，使得内存占用更小、计算效率更高。

在稀疏矩阵处理方面，新版本修复了coo_remove_scalar中的不安全类型转换问题，并增强了coo_symmetrize功能，使其能够支持coo_matrix格式。这些改进使得稀疏矩阵运算更加稳定和高效。

内存管理与泄漏修复

内存管理是本版本的另一重点改进领域。开发团队修复了多处内存泄漏问题，特别是在矩阵缓冲区和坐标结构处理过程中。新增的mdbuffer现在能够正确处理全静态扩展的情况，避免了潜在的内存访问错误。

对于大规模图算法，修复了最小生成树(MST)算法在边权相同情况下的计算错误，同时改进了拉普拉斯矩阵自环处理的正确性。这些改进提升了图算法的稳定性和准确性。

计算内核优化

在底层计算内核方面，团队大幅减少了Reduction内核的实例化数量，通过模板优化降低了编译时间和二进制体积。同时修复了abs_op在Clang编译器下的编译错误，增强了跨平台兼容性。

对于线性代数运算，修复了Lanczos求解器中参数处理的若干问题，并完善了相关文档。这些改进使得特征值计算等操作更加可靠。

构建系统与依赖管理

在构建系统方面，25.08版本移除了对CUDA 11的支持，全面转向CUDA 12.x系列。这一变化反映了对最新GPU架构和特性的支持。同时优化了conda包管理和开发容器配置，简化了开发环境的搭建过程。

总结

RAFT 25.08版本通过矩阵运算优化、内存管理改进和计算内核重构，为GPU加速的数据处理提供了更高效、更稳定的基础。这些改进将直接提升上层机器学习算法和数据科学工作流的性能表现，特别是在处理大规模稀疏数据和图结构时效果更为显著。

raft

项目地址：https://gitcode.com/gh_mirrors/raft11/raft

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

433

395

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.68 K

989