MNN框架多Session场景下线程池性能优化实践

2025-05-22 07:58:26作者：宣聪麟

MNN is a blazing fast, lightweight deep learning framework, battle-tested by business-critical use cases in Alibaba

项目地址：https://gitcode.com/GitHub_Trending/mn/MNN

背景介绍

MNN作为阿里巴巴开源的高性能轻量级神经网络推理框架，在实际应用中经常需要处理多算法并发执行的场景。本文针对MNN框架在多Session(多算法)并发计算时的线程池性能问题进行了深入分析，并提出了优化方案。

问题发现

在鲲鹏920处理器环境下，使用yolov8n.mnn模型进行测试时发现：

当使用MNN内部线程池时，6个算法句柄的吞吐量仅为51，平均耗时176ms
相同条件下，使用openMP线程池的吞吐量可达90，平均耗时65ms，性能提升约80%
使用多个子线程池方案时，7个句柄的吞吐量为73，平均耗时95ms，相比内部线程池提升约40%

性能瓶颈分析

通过对MNN内部线程池的分析，发现存在以下性能瓶颈：

任务分配不均：并发任务总是优先分配给低序号线程，导致高序号线程闲置
线程唤醒策略低效：计算并发任务时所有线程都被唤醒，使用自旋锁导致多余线程空转
计算时间随句柄数增加：从1个句柄时的0.1ms增加到15个句柄时的0.6ms

优化方案探索

针对上述问题，尝试了以下优化方案：

方案一：无锁队列优化

采用多个子线程池，每个线程池4个并发线程
任务队列使用无锁阻塞队列(concurrentqueue)
每个算法句柄绑定特定线程池

测试结果显示：

6个句柄时吞吐量65.7，平均耗时90.79ms
相比原内部线程池有明显提升，但仍不及openMP性能

方案二：单线程池+无锁队列

使用单个线程池
任务队列采用无锁阻塞队列

测试结果显示：

性能提升有限，6个句柄时吞吐量52.93，平均耗时113.2ms
说明单纯的无锁队列优化效果不明显

技术建议

根据测试结果和MNN官方建议：

少量实例(小于2)时可以使用内部线程池加速
多实例场景建议：
- 全部使用单线程模式
- 外部自行管理线程池
- 或直接使用openMP线程池

性能优化启示

线程池设计需要考虑任务分配的均衡性
线程唤醒策略对性能影响显著
在多Session场景下，线程池的竞争会成为性能瓶颈
无锁数据结构可以改善但无法完全解决问题

总结

MNN框架在多Session场景下的线程池性能优化是一个系统工程，需要根据具体应用场景选择合适的线程管理策略。对于高性能要求的应用，建议采用外部线程池管理或直接使用openMP等成熟方案。

MNN is a blazing fast, lightweight deep learning framework, battle-tested by business-critical use cases in Alibaba

项目地址：https://gitcode.com/GitHub_Trending/mn/MNN

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter

Ascend Extension for PyTorch

ohos_react_native

React Native鸿蒙化仓库

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解