Transformers项目中FastAPI与LLM推理的VRAM内存泄漏问题分析

2025-04-26 23:21:01作者：冯梦姬Eddie

🤗 Transformers: the model-definition framework for state-of-the-art machine learning models in text, vision, audio, and multimodal models, for both inference and training.

项目地址：https://gitcode.com/GitHub_Trending/tra/transformers

在基于Transformers库开发LLM推理服务时，许多开发者会遇到一个常见但棘手的问题——随着API调用次数的增加，GPU显存(VRAM)使用量不断攀升且无法自动释放，最终导致内存溢出(OOM)错误。本文将以一个典型场景为例，深入分析该问题的成因及解决方案。

问题现象

开发者在使用FastAPI框架部署Llama-3.2-1B-Instruct模型时，观察到以下现象：

初始显存占用约为3GB（包含系统其他进程）
每次调用推理API后，显存占用逐步增加
峰值显存达到22GB左右（显卡总容量24GB）
最终出现OOM错误，服务崩溃
即使停止调用API，显存也不会自动释放

技术背景

这种现象属于典型的GPU显存泄漏问题。在PyTorch框架下，GPU显存管理遵循以下机制：

显存分配器：PyTorch使用自定义的CUDA内存分配器来管理显存
缓存机制：为提高性能，PyTorch会缓存已分配的显存块
异步执行：CUDA操作默认是异步的，可能导致资源释放延迟

问题根源分析

通过实验验证，我们确认问题主要源于以下几个方面：

中间张量未释放：推理过程中产生的中间计算结果未被及时清理
PyTorch显存缓存：PyTorch默认会保留已分配的显存以备重用
异步上下文影响：FastAPI的异步执行环境可能干扰正常的显存回收

解决方案

经过多次测试，我们总结出以下有效的解决方案：

强制清空显存缓存：

torch.cuda.empty_cache()

禁用梯度计算（适用于纯推理场景）：

torch.set_grad_enabled(False)

手动触发垃圾回收：

import gc
gc.collect()

最佳实践建议

基于实际项目经验，我们推荐以下开发实践：

显存监控：实现显存使用监控机制，及时发现异常
定期清理：在高频调用场景下，定期执行显存清理
批处理优化：尽可能使用批处理而非单次推理
资源隔离：考虑使用单独的进程处理推理任务

实现示例

以下是经过优化的Flask实现示例：

import gc
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
from flask import Flask, request

app = Flask(__name__)

# 初始化模型
model_name = "meta-llama/Llama-3.2-1B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    device_map="auto", 
    torch_dtype=torch.float16
)

# 禁用梯度计算
torch.set_grad_enabled(False)

@app.route("/infer", methods=['POST'])
def inference_endpoint():
    data = request.get_json()
    
    # 准备输入
    messages = [
        {"role": "system", "content": "..."},
        {"role": "user", "content": data['text']}
    ]
    formatted_prompt = tokenizer.apply_chat_template(
        messages, 
        tokenize=False, 
        add_generation_prompt=True
    )
    
    # 执行推理
    inputs = tokenizer(formatted_prompt, return_tensors="pt").to("cuda")
    with torch.no_grad():
        output = model.generate(**inputs, max_new_tokens=150)
        new_tokens = output[0][inputs['input_ids'].shape[-1]:]
        response = tokenizer.decode(new_tokens, skip_special_tokens=True)
    
    # 显存清理
    del inputs, output, new_tokens
    gc.collect()
    torch.cuda.empty_cache()
    
    return {'result': response}