Bitsandbytes项目磁盘空间占用优化方案解析

2025-05-31 10:31:14作者：钟日瑜

背景概述

Bitsandbytes作为深度学习领域广泛使用的量化工具库，在最新版本中面临磁盘空间占用过大的问题。经分析发现，该库默认打包了多个CUDA版本的二进制文件，导致单个环境安装后占用空间高达300MB以上，远超同类库如AutoGPTQ（832KB）和Optimum（3.4MB）。

技术根源分析

多版本CUDA支持

项目维护者为确保兼容性，默认打包了从CUDA 11.0到12.3的多个版本二进制文件。每个CUDA版本对应两个变体：

标准版本（支持cublasLt）
无cublasLt版本（_nocublaslt）

胖二进制结构

每个二进制文件都是"fat binary"，包含从Maxwell（sm_50）到最新架构（如sm_90）的所有计算能力（Compute Capability）支持。这种设计虽然提高了硬件兼容性，但显著增加了文件体积。

当前解决方案

手动精简方案

用户可安全删除不使用的CUDA版本文件，例如仅保留cuda 12.1相关文件：

cd site-packages/bitsandbytes
find . -type f | grep -e libbitsandbytes_cuda | grep -v 121 | xargs rm

版本演进

在v0.43.0版本中，项目已进行初步优化：

移除了CUDA 11.0-11.6的支持
保留CUDA 11.7-12.3的兼容性
每个二进制文件支持从sm_50到最新架构的计算能力

未来优化方向

技术路线图

运行时动态加载：通过#1103 PR实现cublasLt的运行时检测，消除_nocublaslt变体
PyTorch库优先加载：改进库加载逻辑，优先使用PyTorch自带的CUDA库
架构精简：
- 验证CUDA的二进制向前兼容性，可能只需提供11.x和12.x两个主版本
- 考虑移除已弃用的Maxwell架构（sm_50）支持

编译优化

调整编译优化级别平衡性能与体积
探索按需编译机制，允许用户指定目标架构

技术权衡考量

项目团队面临的核心矛盾是：

易用性：保持"pip install"的简单性，无需用户配置CUDA环境
空间效率：减少不必要的二进制文件打包
兼容性：支持广泛的硬件设备和CUDA版本

用户建议

生产环境建议手动删除不使用的CUDA版本
对空间敏感的用户可考虑从源码编译，指定特定CUDA版本和计算能力
关注项目更新，未来版本将逐步优化空间占用问题

该项目的优化过程体现了深度学习工具链中兼容性与效率的典型平衡问题，其解决方案对同类项目具有参考价值。

bitsandbytes

8-bit CUDA functions for PyTorch

项目地址：https://gitcode.com/gh_mirrors/bi/bitsandbytes

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解