Infinity项目异步推理引擎的性能优化实践

2025-07-04 02:39:24作者：史锋燃Gardner

Infinity is a high-throughput, low-latency REST API for serving vector embeddings, supporting a wide range of sentence-transformer models and frameworks.

项目地址：https://gitcode.com/gh_mirrors/infi/infinity

异步推理引擎的启动开销问题分析

在使用Infinity项目的Python API进行文本嵌入处理时，开发者发现了一个性能问题：虽然实际的嵌入计算仅需20ms完成，但整个异步执行过程却耗时520ms。经过分析，主要时间消耗发生在异步上下文管理器async with engine的使用上。

问题根源探究

这种性能差异的根本原因在于异步引擎的启动和关闭机制。当使用async with engine语法时，每次进入上下文都会触发引擎的完整启动和初始化过程，这包括模型加载、设备分配等耗时操作。而在实际应用中，这些初始化操作通常只需要执行一次。

最佳实践方案

针对这一问题，Infinity项目维护者提出了明确的优化建议：

避免频繁启动/停止引擎：不应在每次推理时都使用async with engine，这会导致重复的初始化开销。
使用显式生命周期管理：推荐使用astart()和astop()方法手动控制引擎的生命周期，在应用启动时初始化一次，在整个运行期间重复使用。
正确使用事件循环：asyncio.run()应该只在程序的主入口点调用一次，而不是在每次推理时都调用。

优化后的代码示例

import asyncio
from infinity_emb import AsyncEngineArray, EngineArgs

async def main():
    # 初始化引擎(仅一次)
    array = AsyncEngineArray.from_args([
        EngineArgs(model_name_or_path="BAAI/bge-m3")
    ])
    engine = array[0]
    
    # 显式启动引擎
    await engine.astart()
    
    try:
        # 多次推理重用同一引擎
        for _ in range(100):
            embeddings, usage = await engine.embed(sentences=["your text"])
            # 处理嵌入结果...
    finally:
        # 程序退出前停止引擎
        await engine.astop()

# 程序入口点(仅调用一次)
asyncio.run(main())

性能优化原理

这种优化之所以有效，是因为：

减少重复初始化：模型加载、设备分配等操作只需执行一次
保持热状态：引擎保持运行状态，避免了冷启动开销
资源复用：GPU内存、计算图等资源得到有效复用

适用场景建议

Web服务：在FastAPI等异步框架中，应在服务启动时初始化引擎
批处理任务：处理大批量数据时保持引擎长运行
交互式应用：在用户会话期间保持引擎活跃

通过遵循这些最佳实践，开发者可以充分发挥Infinity项目异步推理引擎的性能潜力，将处理延迟从500ms级别降低到20ms级别，实现接近实时的文本嵌入处理能力。

Infinity is a high-throughput, low-latency REST API for serving vector embeddings, supporting a wide range of sentence-transformer models and frameworks.

项目地址：https://gitcode.com/gh_mirrors/infi/infinity

登录后查看全文

热门内容推荐

1 【亲测免费】开源项目 `build-your-own-x` 使用指南 2 【亲测免费】探索科技之旅：《Build Your Own X》项目详解 3 GitHub_Trending/bu/build-your-own-x自动化：CI/CD流程在自制项目中的应用 4 从零打造智能家居系统：用build-your-own-x实现家庭自动化

最新内容推荐

Degrees of Lewdity中文汉化终极指南：零基础玩家必看的完整教程 Unity游戏翻译神器：XUnity Auto Translator 完整使用指南 PythonWin7终极指南：在Windows 7上轻松安装Python 3.9+终极macOS键盘定制指南：用Karabiner-Elements提升10倍效率 Pandas数据分析实战指南：从零基础到数据处理高手 Qwen3-235B-FP8震撼升级：256K上下文+22B激活参数 7步搞定机械键盘PCB设计：从零开始打造你的专属键盘终极WeMod专业版解锁指南：3步免费获取完整高级功能 DeepSeek-R1-Distill-Qwen-32B技术揭秘：小模型如何实现大模型性能突破音频修复终极指南：让每一段受损声音重获新生

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

flutter_flutter

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理