Candle项目中Phi-3模型KV缓存问题的分析与解决

2025-05-13 01:31:09作者：曹令琨Iris

问题背景

在使用Rust机器学习框架Candle实现基于Phi-3模型的文本生成服务时，开发者遇到了一个有趣的性能问题。当使用短提示词（如"hello"）时，模型能够正常进行多次文本生成；但当使用较长提示词（如"lovingly"）时，第一次生成成功，第二次生成则会失败并报错"shape mismatch in broadcast_add"。

错误分析

错误信息显示张量形状不匹配：

左侧张量形状：[1, 32, 2, 103]
右侧张量形状：[1, 1, 2, 2]

这种形状不匹配发生在广播加法操作中，表明模型内部状态在多次生成间出现了不一致。具体来说，问题源于Phi-3模型中的键值(KV)缓存机制。

KV缓存机制

在Transformer架构中，KV缓存用于存储先前计算的键和值，避免在生成每个新token时重新计算整个序列。这种机制显著提高了文本生成的效率，特别是在自回归生成过程中。

然而，当模型被重复用于多个独立的生成会话时，如果KV缓存未被正确重置，会导致以下问题：

第一次生成后，KV缓存中保留了前次生成的状态
第二次生成时，模型尝试将新输入与残留的KV缓存结合
由于形状不匹配，导致广播操作失败

解决方案

针对这一问题，Candle框架为Phi-3模型提供了clear_kv_cache方法。该方法可以清除模型内部的KV缓存，使其恢复到初始状态，适合用于以下场景：

单模型多会话：在Web服务等场景下，单个模型实例需要处理多个独立的生成请求。每次生成前调用clear_kv_cache可确保会话隔离。
模型克隆：对于需要并行处理多个生成会话的场景，可以先创建主模型，然后克隆多个副本。每个克隆体拥有独立的KV缓存，而共享相同的模型权重，既保证了性能又节省了内存。