Infinity项目中的NV-Embed-V2模型内存优化实践

2025-07-04 14:34:05作者：廉彬冶Miranda

Infinity is a high-throughput, low-latency REST API for serving vector embeddings, supporting a wide range of sentence-transformer models and frameworks.

项目地址：https://gitcode.com/gh_mirrors/infi/infinity

背景介绍

Infinity是一个基于Python的嵌入模型服务框架，能够高效地部署和运行各种文本嵌入模型。在实际应用中，用户经常会遇到GPU内存不足的问题，特别是在运行大型嵌入模型如NV-Embed-V2时。

内存问题分析

当在8块40GB显存的NVIDIA A100 GPU上运行NV-Embed-V2模型时，系统报告显存不足错误。错误信息显示，尽管GPU总容量为39.38GB，但实际可用显存仅剩813.38MB，而PyTorch已分配34.07GB显存，另有4.00GB被预留但未分配。

根本原因

这种显存不足的情况通常由以下几个因素导致：

模型本身规模较大，需要较多显存
批处理大小设置不当，导致单次处理数据量过大
PyTorch显存管理机制导致的显存碎片化
多GPU并行处理配置不当

解决方案

1. 调整批处理大小

最直接的解决方案是通过--batch-size参数控制每次处理的样本数量。对于NV-Embed-V2这类大型模型，建议从较小的批处理大小开始尝试，例如：

infinity_emb v2 --batch-size 4

2. 优化PyTorch显存管理

可以通过设置环境变量来优化PyTorch的显存分配策略：

export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True

这个设置可以帮助减少显存碎片化问题，提高显存利用率。

3. 多GPU负载均衡

对于拥有多块GPU的系统，确保模型能够均匀地分布在所有可用GPU上。Infinity框架支持自动多GPU并行，但需要正确配置。

4. 模型特定优化

不同模型可能有特定的优化建议。例如，对于BAAI/bge-en-icl模型，也需要类似地控制批处理大小来避免显存溢出。

实践建议

始终从小的批处理大小开始，逐步增加直到找到最佳值
监控GPU显存使用情况，使用工具如nvidia-smi
对于生产环境，建议进行压力测试以确定稳定的批处理大小
考虑模型的特性和硬件配置，不同模型的最佳批处理大小可能不同

结论

在Infinity项目中运行大型嵌入模型时，合理配置批处理大小和显存管理策略是避免显存不足问题的关键。通过上述方法，用户可以有效地在有限显存条件下运行NV-Embed-V2等大型模型，实现稳定的嵌入服务。

对于开发者而言，理解模型的内存需求和硬件限制，以及掌握基本的性能调优技巧，是构建高效嵌入服务的基础能力。

infinity

Infinity is a high-throughput, low-latency REST API for serving vector embeddings, supporting a wide range of sentence-transformer models and frameworks.

项目地址：https://gitcode.com/gh_mirrors/infi/infinity

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

203

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理

apinto

基于golang开发的网关。具有各种插件，可以自行扩展，即插即用。此外，它可以快速帮助企业管理API服务，提高API服务的稳定性和安全性。