Text-Embeddings-Inference项目中的CPU资源限制优化实践

2025-06-24 08:10:14作者：柯茵沙

背景介绍

在容器化部署环境中，Docker Swarm和Kubernetes都提供了限制容器CPU使用量的功能。然而，当我们在Text-Embeddings-Inference(TEI)这样的高性能推理服务中应用这些限制时，如果不进行特殊配置，可能会遇到严重的性能下降问题。

通过实际测试发现，在4核8线程的i3-8300H处理器上，当使用Docker的CPU限制功能时，性能表现差异显著：

可以看到，单纯使用CPU限制而不进行优化时，性能下降了约6倍，这显然是不可接受的。

这个问题源于Linux cgroups的CPU限制机制与应用程序线程池管理的不同步。当容器被限制使用2个CPU核心时，如果应用程序仍然创建大量线程（基于物理CPU核心数），这些线程会被频繁调度和限制，导致严重的上下文切换开销和性能下降。

针对Text-Embeddings-Inference项目，可以通过设置以下环境变量来优化性能：

MKL_NUM_THREADS=1
MKL_DOMAIN_NUM_THREADS="MKL_BLAS=1"
MKL_DYNAMIC="FALSE"

这些变量控制着数学核心库(MKL)的线程行为，确保它们不会创建超出CPU限制的线程数。在实际应用中，应将数字"1"替换为等于或略大于分配的CPU限制数的整数。

当容器被限制CPU使用量时，操作系统通过cgroups机制实现这一限制。然而，大多数应用程序在启动时会查询系统可用的CPU核心数来初始化线程池。如果应用程序不知道容器被限制的CPU数量，它会创建过多的线程，导致：

通过设置MKL相关环境变量，我们告诉数学计算库使用适当数量的线程，避免了上述问题。

虽然目前需要手动配置这些环境变量，但理想情况下，应用程序应该能够自动感知容器的CPU限制。一些现代编程语言（如Java 15+）已经实现了这一功能。希望未来Text-Embeddings-Inference项目也能内置这种自动检测机制，简化部署配置。

对于现在而言，理解这一问题并正确配置环境变量，是确保TEI在容器环境中发挥最佳性能的关键。

登录后查看全文