BentoML服务请求队列的FIFO执行问题分析

2025-05-29 10:03:23作者：傅爽业Veleda

在BentoML框架中，当使用非嵌入式Runner且未启用批处理功能时，服务请求应当遵循FIFO（先进先出）的执行顺序。然而，近期发现了一个关键问题：实际执行过程中请求却以LIFO（后进先出）的方式处理，这可能导致先到达的请求因长时间等待而超时。

问题背景

BentoML是一个用于构建和部署机器学习服务的开源框架。在标准的服务配置中，当满足以下条件时：

使用自定义Runner（非嵌入式）
禁用批处理功能
不启用工作进程并行化

理论上请求应该按照到达顺序依次处理。但在实际测试中发现，后到达的请求反而会先被执行，这种异常行为会影响服务的公平性和可靠性。

问题根源

经过代码分析，问题出在dispatcher.py文件中的请求队列处理逻辑。具体来说，在以下两个位置：

第263行：使用_queue.pop()从队列中取出请求
第361行：同样使用了_queue.pop()方法

pop()方法默认会从列表末尾移除元素（LIFO），而正确的做法应该是使用popleft()方法从列表头部移除元素（FIFO）。

影响分析

这种执行顺序的错乱会导致以下问题：

请求饥饿：先到达的请求可能长时间得不到执行
超时风险：特别是对于耗时较长的处理任务，先到的请求更容易超时
不可预测性：破坏了用户对服务行为的预期

在实际测试中，当Runner处理方法需要较长时间（如10秒）时，连续发送多个请求会观察到响应顺序与发送顺序不一致的现象。

解决方案

修复方案相对简单：将上述两处的pop()调用替换为popleft()即可。这一修改：

保持了原有功能不变
确保了请求处理的公平性
不会引入额外的性能开销

最佳实践建议

对于类似场景，开发者应该注意：

明确队列的处理顺序需求（FIFO/LIFO）
在性能测试中验证请求的执行顺序
对于关键业务，考虑实现请求优先级机制
合理设置超时时间，考虑队列等待时间

这个问题提醒我们，在构建高并发服务时，不仅要关注功能实现，还需要注意基础数据结构的选择和使用方式。

BentoML

Build Production-Grade AI Applications

项目地址：https://gitcode.com/gh_mirrors/be/BentoML

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

203

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理

apinto

基于golang开发的网关。具有各种插件，可以自行扩展，即插即用。此外，它可以快速帮助企业管理API服务，提高API服务的稳定性和安全性。