DeepKE项目中大模型微调时的显存优化实践

2025-06-17 14:40:48作者：晏闻田Solitary

问题背景

在使用DeepKE项目进行大语言模型微调时，经常会遇到显存不足的问题。特别是在使用Llama2-13B等大型模型时，即使将batch size设置为1，仍然会出现CUDA显存不足的错误。本文记录了解决这一问题的完整过程和技术方案。

问题现象

用户在尝试使用3块GPU（每块23.64GiB显存）微调Llama2-13B模型时，遇到了典型的CUDA显存不足错误：

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 2.00 MiB (GPU 2; 23.64 GiB total capacity; 23.08 GiB already allocated; 704.00 KiB free)

即使将各种参数（如max_source_length、cutoff_len等）调至很小，问题依然存在。

解决方案探索

初步尝试

调整显存分配策略：通过设置环境变量PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:1024来优化显存分配，但效果有限。
参数精简：移除了不必要的--checkpoint_dir参数，但问题依旧。

量化技术应用

4-bit量化：添加--bits 4参数尝试进行4-bit量化，但遇到了版本兼容性问题：

ValueError: You can't pass `load_in_4bit`or `load_in_8bit` as a kwarg when passing `quantization_config` argument at the same time.

代码更新：在DeepKE项目更新后，量化功能可以正常工作，但出现了新的BFloat16兼容性问题：
```
RuntimeError: "triu_tril_cuda_template" not implemented for 'BFloat16'
```

最终解决方案

Transformers版本降级：将transformers库降级到4.33.0版本解决了BFloat16兼容性问题：
```
pip install -U transformers==4.33.0
```
完整配置：最终的运行配置包括：
- 使用4-bit量化
- 适当的batch size和梯度累积
- 优化后的显存分配策略
- 兼容的transformers版本