Bitsandbytes项目中统一内存抽象与自定义操作交互的技术探索

2025-05-31 17:56:42作者：齐添朝

8-bit CUDA functions for PyTorch

项目地址：https://gitcode.com/gh_mirrors/bi/bitsandbytes

背景与挑战

在深度学习优化器开发领域，Bitsandbytes项目因其高效的内存管理和优化算法而备受关注。近期开发团队面临一个关键技术挑战：如何在PyTorch框架下实现统一内存(Unified Memory)与自定义操作(Custom Ops)的无缝交互。统一内存是CUDA提供的一种内存管理技术，它允许CPU和GPU共享同一块物理内存空间，简化了内存管理的同时提升了数据访问效率。

技术难点分析

PyTorch原生并不支持统一内存，这成为了自定义操作重构过程中的潜在障碍。开发团队需要解决几个核心问题：

如何创建使用CUDA统一内存但表现为普通CUDA张量的数据结构
如何保持现有分页优化器的功能完整性
如何与PyTorch基于设备的调度机制集成
如何通过现有接口管理内存预取

解决方案探索

团队最初提出了一个基于C++扩展的解决方案，其核心思路是利用torch.from_blob方法配合CUDA设备指定，创建"伪装"成CUDA张量但实际使用统一内存的数据结构。这种方法的关键优势在于：

满足PyTorch的调度要求
保持与现有优化器基础设施的兼容性
实现自动页迁移功能

技术实现上，团队设计了以下关键组件：

改进的get_paged函数

def get_paged(*shape, dtype=torch.float32, device=FIRST_CUDA_DEVICE):
    num_bytes = dtype.itemsize * prod(shape)
    tensor = cpp_extension.get_managed_tensor(
        num_bytes,
        list(shape),
        dtype
    )
    tensor.is_paged = True
    tensor.page_deviceid = device.index
    return tensor

C++底层实现

torch::Tensor get_managed_tensor(
    size_t nb_bytes,
    c10::IntArrayRef sizes,
    c10::ScalarType dtype
) {
    void* cuda_ptr;
    CUDA_CHECK(cudaMallocManaged(&cuda_ptr, nb_bytes, cudaMemAttachHost));
    
    auto options = torch::TensorOptions()
        .device(torch::kCUDA)
        .dtype(dtype)
        .requires_grad(false);

    return torch::from_blob(
        cuda_ptr,
        sizes,
        [](void* ptr) { CUDA_CHECK(cudaFree(ptr)); },
        options
    );
}

技术权衡与决策

经过深入评估，团队最终决定放弃这条技术路线，主要基于以下考虑：

依赖性问题：解决方案需要直接依赖Torch库，增加了项目的复杂度
实际需求有限：目前只有AMD硬件平台有明确需求使用统一内存
兼容性考虑：AMD平台已可通过"cuda"调度键进行分发

经验总结

这一技术探索过程为深度学习框架优化提供了宝贵经验：

框架限制评估：PyTorch的设计决策对底层内存管理有深远影响
硬件兼容性：不同硬件平台对统一内存的支持程度差异显著
工程权衡：技术方案的可行性不仅取决于技术本身，还需考虑生态依赖和实际需求

这一案例展示了深度学习系统开发中常见的技术决策过程，即在创新功能与系统稳定性、兼容性之间寻找平衡点。虽然统一内存方案最终未被采用，但这一探索为项目后续的技术演进提供了重要参考。

8-bit CUDA functions for PyTorch

项目地址：https://gitcode.com/gh_mirrors/bi/bitsandbytes

登录后查看全文

热门内容推荐

1 【亲测免费】开源项目 `build-your-own-x` 使用指南 2 【亲测免费】探索科技之旅：《Build Your Own X》项目详解 3 GitHub_Trending/bu/build-your-own-x自动化：CI/CD流程在自制项目中的应用 4 从零打造智能家居系统：用build-your-own-x实现家庭自动化

最新内容推荐

MsgViewer终极指南：轻松打开MSG文件的免费邮件查看器 PiliPlus终极体验指南：解锁B站第三方客户端的完整功能秘籍 Shutter Encoder视频转换神器：从小白到高手的效率革命直播抢码实战秘籍：5步搞定智能扫码登录，成功率提升300%如何快速掌握SillyTavern版本更新：新手必看的完整操作手册 Calibre路径保护插件：告别拼音目录，拥抱原生中文路径 5分钟快速上手：文泉驿微米黑字体跨平台安装完整指南终极歌词下载指南：3大平台免费获取，打造完美音乐体验 PDown百度网盘下载器：2025年免费极速下载解决方案终极YimMenu游戏增强工具：从安装到精通完整指南

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

flutter_flutter

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

ohos_react_native

React Native鸿蒙化仓库