OpenBMB/OmniLMM项目中MiniCPM-V-2_6-int4模型的文本识别循环问题分析

2025-05-11 10:47:25作者：苗圣禹Peter

问题现象

在使用OpenBMB/OmniLMM项目中的MiniCPM-V-2_6-int4模型进行营业执照图片识别时，发现模型在识别经营范围部分内容时出现异常行为。具体表现为：模型能够正确识别文本的前半部分，但在识别到一半后开始重复输出同一个词汇，陷入循环输出状态。

从用户提供的对比图中可以明显看出，原始营业执照图片中的经营范围内容完整且连贯，但模型输出结果却在"销售"一词后开始不断重复"销售"这个词汇，无法继续识别后续的正常文本内容。

MiniCPM-V-2_6-int4是OpenBMB团队开发的一个轻量级多模态模型，采用了4位整数量化技术(INT4)来减小模型体积和计算资源需求，同时保持较好的性能。这类模型通常基于Transformer架构，结合了视觉和语言理解能力，能够处理图像识别和文本生成任务。

在文本识别任务中，模型需要先通过视觉编码器理解图像内容，然后通过语言解码器生成对应的文本描述。当模型陷入重复输出的循环时，通常表明解码器在生成过程中失去了对上下文的理解和控制能力。

量化精度损失：INT4量化虽然减小了模型体积，但也带来了精度损失。在复杂场景或长文本识别时，量化误差可能累积导致模型行为异常。
注意力机制失效：Transformer模型依赖注意力机制来维持对上下文的关注。在长文本生成过程中，注意力机制可能出现"注意力漂移"现象，导致模型过度关注最近生成的词汇而忽略全局上下文。
解码策略问题：模型可能使用了贪心搜索或束搜索等解码策略，当遇到模糊或不确定的视觉特征时，容易陷入局部最优解而不断重复相同输出。
训练数据偏差：如果训练数据中某些词汇(如"销售")出现频率过高，模型可能倾向于重复这些高频词汇。

调整解码参数：
- 增加"重复惩罚"(repetition_penalty)参数，抑制重复词汇的生成
- 调整温度参数(temperature)控制生成的随机性
- 尝试使用核采样(nucleus sampling)替代贪心搜索
模型选择：
- 尝试使用非量化版本模型(MiniCPM-V-2_6)以获得更好的稳定性
- 考虑使用专门针对文档识别优化的模型
预处理优化：
- 对输入图片进行增强处理，提高文字区域的可识别性
- 将大图分割为多个区域分别识别，减少单次识别的内容长度
后处理校正：
- 对模型输出添加基于规则的校验和修正
- 结合OCR技术进行结果验证和补充