Infinity项目中使用MiniCPM-Embedding模型的注意事项

2025-07-04 10:02:00作者：余洋婵Anita

Infinity is a high-throughput, low-latency REST API for serving vector embeddings, supporting a wide range of sentence-transformer models and frameworks.

项目地址：https://gitcode.com/gh_mirrors/infi/infinity

在部署和使用开源项目Infinity时，用户可能会遇到与MiniCPM-Embedding模型相关的一些技术问题。本文将从技术角度分析这些问题，并提供解决方案。

问题现象

当用户尝试在Infinity项目中使用MiniCPM-Embedding模型时，发现推理结果与官方示例存在显著差异。具体表现为向量相似度计算结果不一致，这可能影响后续的语义搜索等应用场景。

原因分析

经过深入调查，发现问题的根源在于模型加载过程中的注意力机制实现方式。MiniCPM-Embedding模型在实现上有以下特点：

该模型自定义了flash-attention-2的实现方式
在配置文件中明确指定了默认使用flash_attention_2作为注意力实现
Infinity项目默认启用了bettertransformer优化，这会强制使用eager模式覆盖原有的注意力实现

这种实现方式的冲突导致了模型推理结果与预期不符。

解决方案

要正确使用MiniCPM-Embedding模型并获得与官方一致的结果，需要在启动Infinity服务时添加以下参数：

--no-bettertransformer --dtype float16

这两个参数的组合可以确保：

禁用bettertransformer优化，保留模型原有的flash_attention_2实现
使用float16精度，保证计算精度与官方实现一致

技术背景

Bettertransformer是Hugging Face提供的一种优化技术，能够显著提升Transformer类模型的推理速度（约1.5倍吞吐量提升）。然而，对于某些自定义了注意力机制实现的模型，这种优化可能会导致计算结果偏差。

Infinity项目选择默认启用bettertransformer是经过深思熟虑的决策，主要基于以下考虑：

对大多数常见嵌入模型（如BERT/RoBERTa等）能带来显著的性能提升
与Hugging Face团队合作验证过兼容性
在transformers版本大于4.42时，不使用eager模式可能导致不正确的结果

最佳实践建议

对于使用自定义注意力机制实现的模型，建议：

查阅模型文档，确认是否使用了特殊的注意力实现
在Infinity中尝试使用--no-bettertransformer参数
进行结果验证，确保推理质量符合预期
权衡性能与准确性需求，选择合适的配置

通过理解这些技术细节，用户可以更有效地在Infinity项目中部署和使用各类嵌入模型，充分发挥其性能优势。

infinity

Infinity is a high-throughput, low-latency REST API for serving vector embeddings, supporting a wide range of sentence-transformer models and frameworks.

项目地址：https://gitcode.com/gh_mirrors/infi/infinity

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.26 K

692