MLC-LLM项目中Softmax算子性能问题的分析与解决

2025-05-10 19:08:15作者：俞予舒Fleming

问题背景

在MLC-LLM项目的实际使用过程中，开发团队发现了一个影响推理性能的关键问题：Softmax算子在模型推理过程中占据了过高的时间比例。通过性能分析工具追踪发现，该算子消耗了超过65%的总推理时间，这显然不符合预期。

当用户使用mlc_llm serve命令运行模型并启用跟踪调试功能时，性能分析数据显示：

softmax (12) time cost: 6.229 ms

而其他关键操作如embedding、sampling等耗时都在毫秒级以下。这种明显的性能瓶颈严重影响了模型的整体推理效率。

经过深入调查，发现问题并非真正出在Softmax算子本身的实现上，而是与性能追踪机制的一个实现缺陷有关。具体来说：

在ModelImpl类的构造函数中，虽然接收了trace_enabled参数，但忘记将其赋值给成员变量trace_enabled_
这导致在GetLogits等关键函数中，虽然包含了用于精确追踪的性能同步代码(TVMSynchronize)，但由于trace_enabled_未被正确设置，这些同步代码永远不会执行
由于缺乏显式同步，性能分析工具无法准确测量GPU操作的耗时，导致测量结果出现偏差

这个问题的存在会导致：

修复方案非常简单直接：

这个修复已经通过Pull Request提交并合并到主分支。

这个案例给我们带来几点重要启示：

对于MLC-LLM项目的使用者，建议：

这个问题的发现和解决过程展示了开源社区协作的优势，也体现了对性能优化工作严谨态度的重要性。

登录后查看全文