Infinity项目中的Jina Embeddings模型VRAM占用优化分析

2025-07-04 17:04:31作者：齐添朝

Infinity is a high-throughput, low-latency REST API for serving vector embeddings, supporting a wide range of sentence-transformer models and frameworks.

项目地址：https://gitcode.com/gh_mirrors/infi/infinity

引言

在使用Infinity项目部署Jina Embeddings模型时，开发者可能会遇到VRAM占用过高的问题。本文将从技术角度分析这一现象的原因，并提供优化建议。

问题现象

当运行jinaai/jina-embeddings-v2-base-en模型时，Infinity框架的VRAM占用达到5424MiB，而Ollama框架仅使用1030MiB。这种显著的差异引起了开发者的关注。

技术分析

1. 序列长度的影响

VRAM占用与模型处理的序列长度直接相关。Jina Embeddings模型的默认配置可能使用了较长的序列长度（如8192 tokens），这会显著增加显存需求。相比之下，Ollama可能使用了较短的默认序列长度（如512或1024 tokens）。

2. 批处理的影响

虽然将Infinity的批处理大小（batch-size）设置为1对VRAM占用影响不大，但这表明主要的内存消耗来自于模型本身和序列长度，而非批处理机制。

3. 模型变体的选择

通过使用专门优化过的模型变体（如michaelfeil/jina-embeddings-v2-base-code），可以将VRAM占用从5400MiB降低到1568MiB。这种优化主要通过调整模型配置中的model_max_len参数实现。

优化建议

使用序列长度优化模型：选择已经预设了合理序列长度的模型变体，如将model_max_len设置为1024而非默认的更长值。
理解VRAM组成：VRAM占用大致可分为两部分：
- 基础模型占用（约800MiB）
- 与序列长度相关的占用（约0.4MiB/token）
性能与资源的权衡：虽然长序列能处理更多上下文，但需要权衡VRAM占用。对于大多数应用场景，1024的序列长度已经足够。
框架选择考虑：不同框架可能有不同的默认优化策略，选择时应考虑实际应用场景的需求。

结论

Jina Embeddings模型在Infinity框架中的高VRAM占用主要源于序列长度设置。通过选择合适的模型变体和配置参数，开发者可以显著降低资源消耗，同时保持良好的性能表现。理解这一机制有助于在实际应用中做出更合理的架构选择。

infinity

Infinity is a high-throughput, low-latency REST API for serving vector embeddings, supporting a wide range of sentence-transformer models and frameworks.

项目地址：https://gitcode.com/gh_mirrors/infi/infinity

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

135

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN开源社区的核心管理仓库，包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息

554

110